Встречаем YandexGPT 5 — в Алисе и опенсорсе
Команда разработки YandexGPT анонсировала новое поколение своих больших языковых моделей — YandexGPT 5. Новая старшая модель — YandexGPT 5 Pro — уже применяется в чате с Алисой, а также доступна в Yandex Cloud через API. Помимо этого, в чате с Алисой впервые появился выбор: можно использовать как модель, которая обращается к Поиску и дообучена быть виртуальным ассистентом, так и базовую версию, лишённую этих возможностей.
Pretrain-версия младшей модели — YandexGPT 5 Lite Pretrain — опубликована в свободном доступе и может быть полезна разработчикам, которые дообучают базовые версии моделей под свои задачи. В ближайшее время на её основе станет доступна instruct-версия через API.
Далее — более подробно о подходах к обучению и ключевых изменениях в новом поколении моделей.
YandexGPT 5 Lite 8B Pretrain
Команда YandexGPT опубликовала pretrain-версию модели YandexGPT 5 Lite на 8B параметров с длиной контекста 32k токенов. Она доступна на Hugging Face.
Обучение модели проходило в два этапа. На первом этапе использовались преимущественно русскоязычные и англоязычные тексты общим объёмом 15T токенов. Второй этап, получивший название Powerup, включал обучение на высококачественных данных объёмом 320B токенов.
Модель демонстрирует конкурентоспособные результаты в ключевых бенчмарках для pretrain-моделей и по ряду из них превосходит мировые аналоги:
Результаты бенчмарков. * — по данным разработчиков. BBH — 3-shot, HUMAN_EVAL и MPBB — 0-shot, все остальные бенчмарки — 5-shot.
Ниже описывается, какие бенчмарки использовались и какие результаты были получены.
Первый этап обучения
Ключевым фактором при создании LLM являются данные для обучения. В обучающем корпусе примерно 30% токенов принадлежит русскоязычным текстам, а большая часть остальных — английским. Если рассматривать структуру датасета, то примерно 60% составляют веб-документы, 15% — код, 10% — математика, а остальное — специфичные данные (о них написано ниже).
Исторически для отбора документов разработчики YandexGPT используют признаки, полезные для ранжирования поисковой выдачи, к числу которых относятся вероятность спама и популярность страниц.
В последних исследованиях был пересмотрен подход к сбору данных. Поскольку классификаторы могут отбрасывать часть полезных текстов, более грубые фильтрации были ослаблены. Это дало существенный прирост объёма датасета — до 15T токенов, а также повышение полноты знаний. Таким образом, выросла доля английских веб-данных (например, в одном из основных компонентов корпуса — с 14% до 30%).
Для фильтрации данных используются классические эвристики, среди которых Repetition NGrams, а также классификаторы качества документов, обученные на человеческой или LLM-разметке. В предыдущих версиях YandexGPT применялись классификаторы для фильтрации документов, но в последней версии была подготовлена целая серия моделей для оценки различных критериев, например, образовательной ценности или присутствия математических рассуждений. Также используется набор правил для отбора наиболее полезных документов.
Существуют и данные специфичных типов. Так, разработчики отмечают два важных внедрения.
Во-первых, постепенно развивается собственный пайплайн синтетики. На основе проверенных источников модель YandexGPT 4 генерирует вопросы — как открытые, так и с вариантами ответов — и включает их в претрейн. Аналогичные процессы можно встретить, к примеру, в Phi-4.
Во-вторых, активно задействуются внутренние наработки Яндекса. К примеру, в Поиске давно используется база Fact Snippet для генерации быстрых ответов. Она тоже служит источником данных для претрейна. Кроме того, разработчики упоминают новый корпус Переводчика.
Экспериментальным путём была внедрена процедура переписывания части веб-документов: модель YandexGPT 4 получает запрос переписать документ, убрав из него ненужный «шум». Это позволяет повысить эффективность обучения, так как полезные тексты укладываются в тот же объём токенов.
Математика
Сбор математического корпуса ведётся по подходу, похожему на DeepSeekMath. Сначала модель из семейства YandexGPT 4 размечает документы на «математичность», затем поверх этой разметки дообучается небольшая (180M) LM, и ей же размечаются большие объёмы доступных текстов. После чего в обучающую выборку добавляются источники, потенциально полезные для математических задач.Подобные подходы встречаются в Qwen-2.5-Math, FineMath, но здесь разработчики дополнительно применяют кастомный парсер, который учитывает структуру математических документов: извлекает формулы из MathJax и удаляет нерелевантный контент.
Кастомный парсер также использован для PDF-части корпуса, где применяется собственный пайплайн OCR. Это особенно важно для математических и научных PDF, где есть большое количество формул.
Код
Для кодовых веб-данных действует тот же принцип, что и для математики. Но проверка качества кода — более сложный вопрос. На претрейне применяются эвристики, напоминающие OpenCoder. Пример — подсчёт доли pass
, assert
, import
в файле Python.
Интерес представляют эксперименты, проверяющие, действительно ли код помогает обычным knowledge-бенчмаркам. Ниже приводится таблица: в экспериментальной модели сравнивались варианты 0/15/30% кода (StarCoder) вместо части очищенного датасета.
0% code | 15% code | 30% code | |
---|---|---|---|
MMLU | 39.7 | 35.3 | 27.4 |
PIQA | 77.7 | 76.3 | 75.2 |
BoolQ | 67.5 | 67.0 | 58.6 |
CultCat | 30.4 | 25.4 | 23.9 |
HumanEval | 4.8 | 9.9 | 13.3 |
Результаты показывают, что при добавлении кода обычные бенчмарки могут падать, хотя в других исследованиях (например, To Code, or Not To Code) отмечается, что код повышает способность к рассуждению. Разработчики YandexGPT намерены продолжать работу над таким датасетом кода, чтобы сохранять баланс качества не только для кода, но и для других навыков.
Второй этап обучения — Powerup
На втором этапе — Powerup — модель дообучалась на данных более высокого качества. Структура Powerup-датасета: 25% веб-страниц, 19% математики, 18% кода, 18% образовательных данных, а также различные фактовые аугментации, вдохновлённые физикой моделей, синтетические выборки, датасеты сервисов и прочие тексты. В качестве регуляризации 40% датасета сохраняется от исходного, чтобы избежать катастрофического забывания.
На этом же шаге внедрялось расширение контекста до 32k токенов NTK-aware scaling с добавлением 5% текстов в большом контексте (превышающем 8k).
Powerup оказался полезен для роста метрик базовой модели:
Бенчмарк | Прирост |
---|---|
MMLU | +2 |
MMLU_PRO | +1.5 |
GSM8K | +3 |
MATH | +7.6 |
HumanEval | +10.4 |
MBPP | +6.0 |
QUALITY | +4.1 |
YandexGPT 5 Pro
Последовательный процесс обучения YandexGPT в общем виде включает несколько стадий Pretrain и этап Alignment (SFT, RLHF). Чтобы новая версия YandexGPT 5 Pro работала лучше предыдущих, требуется серия экспериментов с большими моделями, растянутая во времени на несколько недель. Это дорого как по времени, так и по ресурсам. Поэтому специалисты искали способы сократить время на подбор оптимальной конфигурации и улучшить итоговый результат. Были найдены решения как на уровне Pretrain, так и на уровне Alignment.
Изменения в Pretrain
Обычно модели не стартуют обучение «с нуля». Каждый раз, когда разработчики пытаются повысить качество новой модели, они основываются на предыдущих опытах и экспериментах. Однако даже в таком случае полноценный цикл (Pretrain, SFT, RL) требует множества ресурсов и может длиться месяцы. Постоянно появляются новые методы оптимизации (напомним хотя бы YaFSDP) или лайфхаки, позволяющие ускорить и удешевить процесс.
Сфера опенсорсных LLM тоже стремительно развивается. В Yandex часто сравнивают собственные решения с моделями из открытого доступа. Ранее при сопоставимых размерах LLM модель Яндекса по англоязычным бенчмаркам могла проигрывать опенсорсным аналогам, но на русскоязычных задачах (особенно реального пользовательского потока) нередко оказывалась лучше. Это объясняется тем, что язык обучения в процессе претрейна критически важен. Также имеет значение словарь токенов, который может быть неоптимален для русского языка у англоязычных (или китайских) моделей. В добавок, instruct-версии из открытого доступа могут генерировать неожиданные эффекты в русскоязычном сценарии. Кроме того, для глубокого понимания русского языка и локальных особенностей требуется длительная и масштабная стадия обучения, а не короткое SFT.
Однако разработчики решили иначе использовать опенсорс: взять полноценный цикл обучения (Pretrain, SFT, RLHF) и не стартовать его с случайных весов, а инициализировать модель уже готовыми весами открытой модели Qwen-2.5-32B-base. Как показали тесты, чем больше токенов собственного претрейна проходит модель, тем выше результаты на бенчмарках (особенно связанных с русским языком и культурой). Исследователи также отмечают важную роль словаря токенов. К примеру, для русскоязычных текстов 32k токенов в YandexGPT 5 Pro соответствуют 48k токенам Qwen-2.5-32B-base.
Сочетание весов опенсорсной модели и собственного пайплайна позволило сократить время экспериментов до 20 раз, сохранив при этом месяцы работы на основной цикл. Также этот опыт оказал влияние на традиционный метод обучения без опоры на веса опенсорсных моделей.
Изменения в Alignment
Alignment — это этап, позволяющий модели генерировать ответы, соответствующие ожиданиям людей. Его можно сравнить с огранкой драгоценного камня: сам камень может быть ценным, но только после огранки он раскрывает весь потенциал.
Процесс Alignment проходит в несколько стадий. Сперва SFT (Supervised Fine-Tuning): модель обучается на наборах «инструкция — ответ». Затем RLHF (Reinforcement Learning from Human Feedback): модель учится выпускать более качественные ответы, опираясь на пары предпочтений (один ответ лучше другого).
Подробности уже рассматривались в предыдущей статье, поэтому в данном тексте фокус смещён на новые элементы, добавленные в YandexGPT 5.
Чтобы заметно улучшить сложные задачи, на которых «спотыкались» прошлые версии, разработчики сосредоточились на этом в SFT. Выделяются классы проблем, среди которых:
- Наличие множества подзадач в одном запросе.
- Слишком длинный вход, но короткий ответ (модели не хватает токенов для адекватной генерации).
- Сложные требования к форматированию ответа.
Пример сложного запроса
При этом даже высококачественные данные могут содержать неоднозначные или вредные примеры. Было замечено, что «жёсткое» удаление таких примеров ухудшает итоговый результат. Поэтому разработчики пошли по пути их тегирования: каждому примеру присваивается специальная метка, которая «предупреждает» модель, что этот текст может быть проблемным (на этапе инференса такие теги не нужны). Этот подход улучшил результаты SbS-оценок.
Что касается RL, то для реализации RLHF разработчики YandexGPT комбинируют онлайн и офлайн методы. После выхода статьи про DPO некоторые специалисты выбрали DPO, считая его менее чувствительным к гиперпараметрам, чем PPO. Но на практике DPO может вызывать «разучивание» модели выдавать даже хорошие ответы — если в датасете имеются неоднозначные пары. В зависимости от количества дублей эффективность может сильно меняться. Регуляризация в DPO является важным инструментом для стабильного обучения.
Специалисты YandexGPT создали собственную модификацию DPO под названием LogDPO, где часть лосса, отвечающая за вероятность менее предпочтительного ответа, преобразуется экспоненциальной функцией. Это даёт модели большую устойчивость, хотя полностью не исключает риски «разучивания».
Онлайн PPO. Долгое время в YandexGPT шли попытки настроить онлайн PPO для больших моделей, и они оправдались. Были найдены несколько важных нюансов:
- Advantage normalization принципиально важен.
- Применяется потокенный KL-штраф за отклонение от SFT-модели, причём рассчитывается не по одному токену, а по всему сгенерированному ответу.
- KL-штраф добавляется к лоссу, а не к награде (идея из GRPO).
- На один батч используется более одной эпохи PPO: одно и то же генерированное содержимое может несколько раз проходить градиентный спуск.
- Значение имеет не только размер батча, но и число ответов, сгенерированных для одного и того же промпта (4–8).
- Проведение множества эпох обычно не приводит к переобучению в привычном смысле. Скорее приходится следить за «гудхартингом», когда реворд перестаёт коррелировать с оценками асессоров. Оптимальной может оказаться 6–8 эпох.
Бенчмарки и SbS
Внутреннее слепое сравнение (side-by-side) на широком спектре запросов показывает, что YandexGPT 5 Pro превосходит YandexGPT 4 Pro в 67% случаев и не уступает GPT-4o.
Сравнение YandexGPT 5 Pro с предыдущими моделями
SbS сравнение YandexGPT 5 Pro
При решении типовых задач и стандартизированных тестов (бенчмарках) YandexGPT 5 Pro показывает уровень ведущих моделей аналогичного масштаба, а в отдельных случаях превосходит их:
Бенчмарки. * — по данным разработчиков. MMLU — 5-shot, LiveCodeBench – 1-shot, остальные бенчмарки — 0-shot.
В этом списке отсутствует LLM Arena, так как её аудитория в основном состоит из разработчиков, которые формируют специфический поток запросов (задачи по коду, логике, IT-направлению). При этом сами оценки могут зависеть от предпочтений в формате ответа. Таким образом, позиция модели в рейтинге Арены не всегда отражает её практическую эффективность в бизнес-сценариях.
Для реальных продуктов (например, служб поддержки) оценка качества ответа учитывает, насколько тот соответствует требуемому формату, тональности и прочим специфическим критериям. Разработчики YandexGPT подробно рассказывали об этом в отдельном материале.
Как попробовать YandexGPT 5 Pro
Как и прежние версии, новая модель доступна пользователям Yandex Cloud через API. Она также пригодится для создания ассистентов с RAG, используя AI Assistant API, или для few-shot классификаторов.
Впервые в чате с Алисой появился выбор модели: теперь можно общаться как с моделью, дообученной «быть» Алисой (обращается к Поиску и использует подсказки ассистента), так и с исходной версией YandexGPT 5 Pro. Данный выбор уже доступен на alice.yandex.ru (опция «Про») и скоро появится в приложении «Алиса».
Выбор модели в Алисе
Разработчики планируют и дальше добавлять в чат новые модели, чтобы пользователи могли их тестировать. В скором времени там появится ещё одна LLM из нового семейства, которую удастся попробовать в чистом виде, без возможностей ассистента.
Заключение
Впервые за последние три года Yandex опубликовал собственную модель в открытом доступе. На данный момент YandexGPT 5 Lite 8B Pretrain опережает сопоставимые base-версии Llama и Qwen на ряде ключевых для разработчиков англоязычных и русскоязычных бенчмарков. Эта модель может быть весьма востребована в задачах, где требуется дальнейшее дообучение компактной русскоязычной LLM.
Старшая модель — YandexGPT 5 Pro — уже используется в чате с Алисой и через API в Yandex Cloud. Существенный рост качества ответов обусловлен большим количеством изменений на протяжении обучения: от улучшения набора данных (включая опенсорс-веса) до переосмысления методов Alignment (включая LogDPO). На эксперименты ушли несколько месяцев, что позволило добиться ощутимого прироста качества по результатам бенчмарков и SbS-сравнений.
В планах разработчиков остаётся расширение метода и процессов обучения, чтобы быстрее и эффективнее создавать модели для различных практических сценариев. Разработчики намерены продолжать эксперименты в области «рассуждающих» моделей и делиться своими находками с сообществом.
Обновления программ, что нового
• SteamDB теперь позволяет фильтровать игры с ИИ-контентом
• Браузер Opera One: интеграция Discord, Slack и Bluesky на боковой панели и новые темы оформления
• Яндекс.Карты обновили навигацию для путешествий по Турции
• Google отказывается от аутентификации в Gmail через SMS-коды из-за проблем с их безопасностью
• Яндекс обновил чат с Алисой — теперь он работает на нейросети YandexGPT 5 Pro
• Яндекс представил YandexGPT 5: новая ИИ модель в Алисе и опенсорсе