DeepSeek представил новые модели Janus Pro для генерации изображений

2025-01-28 1650 комментарии
Китайский ИИ-стартап DeepSeek представил мультимодальные модели Janus Pro для генерации изображений. По данным компании, Janus-Pro-7B превосходит Stable Diffusion 3 и DALL-E 3 в тестах. Модели с открытым исходным кодом доступны на Hugging Face

Китайский стартап DeepSeek выпустил новые мультимодальные модели Janus Pro, которые могут анализировать изображения и создавать новые. По словам компании, в тестах GenEval и DPG-Bench модель Janus-Pro-7B превосходит такие решения, как Stable Diffusion 3 Medium и DALL-E 3 от OpenAI.

Ключевые особенности Janus Pro

  • Модели поддерживают мультимодальные функции: анализ изображений и генерацию контента.
  • Доступны варианты с количеством параметров от 1 млрд до 7 млрд.
  • Имеют открытый исходный код и доступны на Hugging Face. Там же можно протестировать бесплатную демоверсию модели.
  • Поддерживаемое разрешение для генерации изображений — до 384x384 пикселей.

«Только что попробовал сгенерировать изображение птички, которая выглядит как теннисный мяч, с помощью новой Janus-Pro-7B, вот что получилось», — @avrecum

Сравнение и успехи

Новая модель является обновлённой версией Janus, выпущенной в конце 2024 года. По словам DeepSeek, Janus Pro превосходит предшественника благодаря усовершенствованным процессам обучения, качеству данных и увеличенному размеру модели.

Сравнение результатов Janus и Janus-Pro-7B. Источник: DeepSeek Сравнение результатов Janus и Janus-Pro-7B. Источник: DeepSeek

Резонанс вокруг DeepSeek

© . По материалам VC
Комментарии и отзывы

Нашли ошибку?

Новое на сайте