Яндекс представил новую версию технологии перевода текста на изображениях на основе нейросетей. Это обновление позволяет не только переводить тексты с учётом контекста, но и улучшить их визуализацию, сохраняя оригинальную вёрстку. Новая технология уже доступна в Яндекс Переводчике и Яндекс.Браузере, а в скором времени появится и в Умной камере.
Что нового в технологии?
В основе новой версии технологии лежит большая языковая модель семейства YandexGPT, способная распознавать и переводить текст на изображениях с учётом его контекста. Это особенно полезно при переводе рекламных слоганов, газетных заголовков или другой информации, где игра слов важна для понимания. Модель позволяет находить наиболее подходящие формулировки для сложных выражений и избегать дословного перевода, что улучшает качество перевода как простых текстов, например, состава товаров, так и более сложных материалов — от статей до технической документации.
Одним из ключевых нововведений стало улучшение визуализации переведённого текста: технология удаляет оригинальный текст с изображения и накладывает переведённый, сохраняя стиль, шрифт и цвет, благодаря чему текст выглядит естественно и легко читается. Улучшенная визуализация поддерживается для нескольких десятков языков, а благодаря контрастности перевода читать текст зачастую проще, чем оригинал.
Как обучали YandexGPT для перевода
Команда Яндекса разработала отдельную модель YandexGPT, адаптированную для перевода с английского на русский. Модель обучалась на множестве пар оригинальных и переведённых текстов, где ей показывали как примеры хороших переводов, так и ошибки, чтобы она могла научиться переводить правильно и избегать неточностей. Для повышения скорости работы и снижения вычислительных затрат была применена методика дистилляции: от большой модели «учителя» знания передаются к меньшей «ученической», которая сохраняет высокое качество перевода при меньших ресурсах.
Новая технология Яндекса станет отличным инструментом как для путешествий, позволяя мгновенно переводить меню или дорожные знаки, так и для профессионалов, работающих с технической документацией или сложными текстами.
Обновления программ, что нового
• Обновление Intel ARC Game On Driver 32.0.101.6253 Non-WHQL: Исправления для Intel Arc B-серии «Battlemage»
• OpenAI представила новые ИИ-модели o3 и o3-mini с возможностью «рассуждения»
• Samsung Display Assistant: Расширенное управление экраном Galaxy S24
• Обновление Intel Graphics Drivers (legacy) 31.0.101.2134 WHQL для процессоров Intel 7-10 поколения
• OpenAI анонсировала возможность позвонить ChatGPT
• Google выпускает Gemini 2.0 Flash Thinking Experimental — свою первую ИИ-модель с возможностью «рассуждения»