эйай ньюз
47.6K subscribers
1.14K photos
519 videos
7 files
1.44K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy
Download Telegram
Сначала не обратил внимания на эту программулину. Но теперь очевидно, насколько это мощный инструмент.

IC Light выкатили обновление, которое позволяет матчить освещение двух картинок.

i.e. поместить предмет на фон и сделать так, чтобы свет на этот предмет падал в соответствии с освещением фоновой картинки.

Можно долго рассказывать про то, как на протяжении веков фотошоперы мучились и страдали от того, что не могли скомпозить две картинки из-за не совпадающего освещения. Но теперь вот вопрос решился ;)

Демо на обнимающем лице (пока без фоновой картинки)
GitHub

IC Light пока нет в a1111, но есть в ComfyUI

@ai_newz
А вот мои приколюхи с помощью IC Light. Не стал париться с автоматиком, а в демке освещение изменятся только промптом. Оказывается, работает даже с пейзажами. Но мелкие детали все же коверкает.

На первой фотке - я катаюсь в Гудаури. На второй - вид на Сан-Франциско, который я сфоткал во время своей последней поездки.

@ai_newz
Орги ChatBot Arena проанализировали, как Llama-3 забралась так высоко на лидерборде.

Llama 3, будучи сравнительно маленькой моделью отстаёт от GPT-4 на более сложных задачах, типа матеши и ризонинга, судя по анализу от Lmsys. Но вот в креативных задачах и более абстрактных задачах, где нужно что-то придумать (куда сходить вечером и тп) выигрывает старшие модели причём со значительным отрывом. Таких запросов от юзеров по всей видимости большинство, и именно они закидывают ламу3 в топ. Но это не отвечает на вопрос, как ей удаётся побеждать старшие модели на этих запросах. Кажется, что если модель лучше и больше, то она должна быть умнее во всем.

Так почему же llama 3 так хороша? Если коротко, то это компьют и качественные данные.

- Датасет фильтровали и фильтровали, чтобы модель училась только на всем хорошем. Кстати секрет той же Dalle 3 или GPT-4 в том же. У Dalle3 картинки в трейн датасете очень подробно описаны gpt-шкой с виженом. А для самой GPT-4, понятно, тоже сильно фильтровали тексты.

- Есть такая гипотеза – Оптимальность модели по Шиншилле. Из нее следует, что для 8B модели оптимально по компьюту натренить ее на 200B токенах. И долгое время это считалось стандартом – якобы дальше тренить мелкую модель смысла нет, и лучше взять модель пожирнее. Но Llama3 натренили на 15 трлн токенов и она всё ещё продолжала учиться. Крч перетрейн капитальный.

- Аккуратный файнтюн на ручной разметке. Кроме почти уже стандартных supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO), и direct preference optimization (DPO) парни скормили лламе3 10 лямов размеченных вручную примеров.

Окей, с тяжелыми тасками она всё равно не очень справляется. Но, оказывается, это и не надо...🤷‍♀️

Юзеры обычно просят какую-нибудь фигню по типу "придумай то то, как сделать это..."
Лама благодаря хорошему датасету и ручному файнтюну просто оказалась очень харизматичной. Отвечает приятно, структура хорошая, на человека похожа:)

High-level Видосик про Llama3
Предыдущий пост про Llama3
Блог пост

@ai_newz
Немного с задержкой, но вот все-таки он:

Нейродайджест за неделю (#17)

1. Ла Лэ Мэ
  - Xiaomi из мира LLM. Deepseek V2. Топ за свои деньги, чуть хуже Llama 3.
  - Майки тизерят MAI-1, это будет их первенец; без помощи OpenAI. Есть закос на уровень GPT-4, но с 500B MoE.
  - Сравнительная таблица 100+ лучших LLM-ок для выбора под свои задачи.
  - В чем феномен Llama 3 или подробный анализ успеха всеми любимой ламы.

2. Тизеры и релизы
  - ElevenLabs снова всех уделал в звуке, представив свой txt2music. Судя по тизеру, у Suno и Udio нет шансов.
  - IC Light или кнопка "Сделай красиво" для фотошоперов. Плагин для A1111 и др. мэтчит освещение фона и добавленного предмета.

3. Интересное
- Определяем и делаем Jiggle physics 🍒 для гауссовских сплатов по сгенерированному видео.
  - Пускаем скупую мужскую слезу на олдскульные девайсы.


> Читать дайджест #16

#дайджест
@ai_newz
Курс по квантизации для тех, кто хочет быть в теме

Эндрю Ын, о котором здесь писалось уже не раз, вместе со спецами из обнимающего лица _marcsun и younesbelkada дропнул очередной эйай #ликбез. На этот раз о квантизации.

Квантизация — это сжатие модели с 32 до 16, 8 или даже 2 бит, не особо теряя при этом в качестве. Считай, raw перевели в jpeg. Так же как и без MoE современные ллм дорого тренировать, так и без квантизации их дорого инференсить - железо которое тянет эти килотонны весов влетает в копеечку.

Чему учат:
- применять си/асимметричную линейную квантизацию.
- квантизации на разных уровнях: по тензорам, по каналам, по группам.
- созданию квантизатора на практике с упаковкой до 2-х бит.

Ссылочка на курс

#ликбез
@ai_newz
Media is too big
VIEW IN TELEGRAM
OpenAI показали GPT-4o (omni), выбрал главное

Доступна для бесплатных пользователей

Запредельные результаты на Chatbot Arena - отрыв в 57 ELO на общих задачах и в 100 ELO на коде

Модель нативно понимает звук, с ней можно разговаривать, задержка разговора упала в 10 раз по сравнение с более ранним голосовым режимом

Она может петь

Нейронка понимает видео в реальном времени

У ChatGPT есть теперь приложение на MacOS, которому можно даже стримить экран!

В два раза быстрее и дешевле GPT-4 Turbo

Новый мультиязычный токенизатор - для для некоторых языков нужно теперь в 4.4x меньше токенов

За счёт этого модель суммарно в 3.5 раза дешевле для русского языка

Доступ к модели уже начали выдавать пользователям ChatGPT, API доступен разработчикам

Разговорный режим будет доступен для подписчиков Plus в ближайшие недели

Более продвинутые аудио и видео возможности дают ограниченным группам пользователей

Ждём завтрашнего Google I/O. Интересно, чем они смогут ответить.

>> Полное видео презентации
>> Страница модели с демками
>> Ещё офф пост с апдейтами

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Завтра Google I/O и они тизерят апдейты Gemini

Так же как и в GPT-4o есть поддержка видео, но задержка звука после презентации OpenAI ощущается ужасно - больше 3 секунд против 300 миллисекунд у GPT-4o.

@ai_newz
"Выигрыш в лотерею каждый день", "Японские первоклассные порнографические блокбастеры", "Бесплатные видео для просмотра онлайн"

Не бойтесь, меня не взломали. Это просто токены, которые нашли в новом мультиязычном токенизаторе GPT-4o, переведённые с китайского (大发快三的, _日本一级特黄大片, 免费视频在线观看). В датасет для тренировки токенизатора попала куча спама, и там теперь есть токены для рекламы казино, пиратского контента и просьб всяких нигерийских принцев

Я забираю обратно свои слова о том, что OpenAI тщательно фильтруют данные 😀

Это хороший пример того, какой бардак творится в токенизаторах даже SOTA LLM, и прекрасное напоминание о том, что и в OpenAI не боги горшки обжигают.

Какие ещё сюрпризы нас ждут в токенизаторе GPT-4o?

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Прикольный юзкейс GPT-4o – переводчик. Подумал, что мне оно могло бы пригодиться в поездах в Азию (Япония, Корея, Китай), где люди часто не знают английского от слова совсем. Несколько лет назад я пользовался Google Translate в таких ситуациях, и он, конечно, ни в какие сравнения не идет с GPT-4o. А тут гэпэтэшка так бодренько переводит приятным голосом, да и с минимальными задержками.

@ai_newz