Google представила мультимодальную генерацию изображений для Gemini 2.0 Flash в AI Studio. Как попробовать бесплатно

2025-03-13 791 комментарии
Google запустила мультимодальную генерацию изображений в Gemini 2.0 Flash для AI Studio. Теперь пользователи могут создавать и редактировать изображения без полной регенерации, а новая настройка «Формат вывода» позволяет переключаться между текстом и комбинированным выводом

Компания Google без лишнего шума запустила экспериментальную поддержку мультимодального вывода изображений в модели Gemini 2.0 Flash в AI Studio. Это делает её первой крупной компанией, представившей такую функциональность раньше OpenAI и xAI. Обновление включает нативную генерацию изображений, редактирование без необходимости повторной генерации, а также новую настройку «Формат вывода», позволяющую переключаться между режимами «только текст» и «текст + изображение».

Мультимодальная генерация изображений — это способность искусственного интеллекта (ИИ) создавать изображения на основе различных типов входных данных, таких как текст, изображения и другие мультимодальные элементы.

В контексте Gemini 2.0 Flash в AI Studio это означает, что:

  • Модель может генерировать изображения на основе текстовых описаний.
  • Пользователи могут редактировать изображения с помощью текстовых инструкций (например, изменить фон, добавить объект и т. д.).
  • Возможно комбинирование текста и изображений в одном ответе ИИ.

Таким образом, мультимодальность позволяет ИИ понимать и обрабатывать разные типы данных одновременно, что делает взаимодействие с моделью более гибким и естественным.

Нативный вывод изображений

Gemini 2.0 Flash теперь поддерживает мультимодальные ответы, позволяя пользователям генерировать изображения вместе с текстом или редактировать существующие изображения в диалоговом режиме. Новые функции включают расширенные возможности редактирования, где можно изменять конкретные элементы изображения без полной регенерации. Например, пользователи могут менять фон или корректировать отдельные элементы сцены, задавая точные инструкции. Все созданные изображения маркируются водяными знаками SynthID для обеспечения подлинности и снижения риска дезинформации.

Нативный вывод изображений в AI Studio — это совершенно новый опыт, который отличается от того, что было раньше.

Большой шаг вперёд для генерации изображений

TestingCatalog News (@testingcatalog) 12 марта 2025

Кроме того, настройка «Формат вывода» (Output format) позволяет переключаться между текстовыми ответами и комбинированным выводом с изображениями, что даёт пользователям больше возможностей в зависимости от их задач.

Новые функции доступны в AI Studio

Google DeepMind активно развивает линейку моделей Gemini AI с момента их первого выпуска в декабре 2024 года. Gemini 2.0 Flash продолжает традицию, добавляя мультимодальные возможности, ускоренную обработку и улучшенное пространственное восприятие. Компания позиционирует эту модель для разработчиков в AI Studio и Vertex AI, делая акцент на агентных функциях, таких как вызов инструментов и работа с мультимодальными данными в реальном времени.

Последние обновления Gemini ориентированы на креативные инструменты, включая создание локализованных произведений искусства и детальное редактирование изображений. Это делает модель привлекательной для таких сфер, как дизайн, маркетинг и создание контента. Экспериментальный запуск функций мультимодальной генерации совпадает с общей стратегией Google по развитию безопасных и масштабируемых генеративных технологий.

Как попробовать мультимодальную генерацию изображений

Мультимодальную генерацию изображений в Gemini 2.0 Flash доступна в экспериментальном режиме (Experimental) бесплатно через API Gemini, платформы для разработчиков Google AI Studio и Vertex AI.

Ограничения

  • Модель недоступна с IP-адресов Европы и России. Это можно исправить, настроив Comss.one DNS.
  • Полноценное общение на русском языке возможно с ограничениями.
  • Экспериментальный режим предполагает возможные изменения функциональности.
  • Доступ ко многим функциям требует API и интеграции с Google-платформами.

Использование Comss.one DNS

Comss.one DNS предоставляет бесплатный доступ к популярным зарубежным сервисам, которые ограничили свою работу в России.

Примечание. Стоит учитывать, что хотя Comss.one DNS может помочь в получении доступа к сайту, будет невозможно получить доступ к заблокированным учетным записям.

Доступ к сервисам и обновлениям. Уникальной особенностью Comss.one DNS является возможность получить доступ к сайтам и сервисам, ограниченным для пользователей из России, включая ИИ-сервисы (ChatGPT и Sora, Microsoft Copilot, GitHub Copilot, xAI Grok, Google Gemini и Claude AI), а также выполнять установку антивирусов и их обновлений, инсайдерских сборок и обновлений Windows без использования VPN.

Примечание. Comss.one DNS не позволяет получать доступ к сайтам и сервисам, заблокированным Роскомнадзором (РКН) на территории России.

Настройка Comss.one DNS:

Проверка работы Comss.one DNS:

  • Для проверки корректности настройки DNS перейдите на страницу Comss.one DNS. Вы должны увидеть, что Comss.one DNS настроен.

  • Если проверка не пройдена, убедитесь, что в вашей ОС или браузере не настроен другой DNS-over-HTTPS.
  • После проверки перезагрузите устройство, чтобы изменения вступили в силу.

Использование Google Gemini 2.0 Flash (Experimental)

Google AI Studio

Регистрация и вход на сайт AI Studio:

  • Перейдите на сайт Google AI Studio (ai.studio.google.com).
  • Войдите, используя ваш Google аккаунт, можно использовать российский. Рекомендуется в настройках профиля поменять язык на английский, чтобы точно все сработало. Это обеспечит вам доступ к инструментам и настройкам AI Studio.
  • В меню правой боковой панели выберите Model > PREVIEW > Gemini 2.0 Flash Experimental.
  • В качесте формата вывода Output format выберите Images and text.

© . По материалам Testing Catalog
Комментарии и отзывы

Нашли ошибку?

Новое на сайте