Новая модель Grok 3 от xAI впечатляет своими возможностями. Как протестировать бесплатно

2025-02-19 4985 комментарии
Grok 3 от xAI — новая языковая модель, конкурирующая с GPT-4o и Gemini. Бесплатное тестирование доступно через Chatbot Arena, где можно сравнить её с другими моделями. Grok 3 поддерживает DeepSearch и улучшенные режимы рассуждения, обеспечивая детализированные и точные ответы.

Илон Маск был инвестором OpenAI, когда компания была основана в 2015 году. С тех пор он полностью разорвал связи со стартапом, утверждая, что компания отошла от своей первоначальной некоммерческой миссии. Он создал собственную ИИ-компанию xAI и разработал большую языковую модель (LLM) под названием Grok. Теперь компания представила новую модель — Grok 3, которая стремительно поднимается на вершину рейтинга чат-ботов.

Grok 3 в работе

Grok 3

18 февраля 2025 года во время прямой трансляции Илон Маск представил последнюю линейку ИИ-моделей от xAI — Grok 3. Grok 3 проходил обучение в 10 раз дольше, чем Grok 2, что стало возможным благодаря созданию собственного дата-центра в Мемфисе (штат Теннесси) с 200 000 GPU.

Маск заявил:

Мы рады представить Grok 3, который, по нашему мнению, на порядок превосходит Grok 2.

Линейка моделей включает также модель рассуждения, основанную на Grok 3. Как и другие модели рассуждения на рынке, включая модели o1 и o3 от OpenAI, бета-версия Grok 3 Reasoning обдумывает ответ немного дольше для получения более качественного результата.

Все модели Grok 3 созданы для конкуренции с ведущими аналогами. Grok 3 соперничает с GPT-4o от OpenAI и Gemini от Google, а Grok 3 Reasoning — с o3-mini (high), o1 и DeepSeek-R1. Менее чем за 24 часа после выхода на рынок продукты xAI доминируют в бенчмарках и на рейтингах чат-ботов.

Производительность

Предварительное обучение модели завершилось в начале января, и, несмотря на то, что обучение продолжается, Grok 3 уже превзошел ведущие модели в ИИ-бенчмарках, а именно:

  • AIME '24 — проверяет математическое рассуждение;
  • GPQA — оценивает знания в области естественных наук (биология, физика, химия);
  • LCB Oct-Feb — тестирует навыки программирования.

Сравнение результатов моделей

Модель рассуждения Grok 3 и ее мини-версия (Grok 3 mini Reasoning) еще дорабатываются, но, согласно результатам, представленным xAI во время прямой трансляции, бета-версии обеих моделей показали конкурентоспособные результаты по сравнению с o3-mini (high), o1, DeepSeek-R1 и Gemini-2 Flash Thinking в тестах AIME, GPQA и LCB.

Результаты тестов рассуждающий моделей

Помимо технических тестов, Grok 3 занял верхние строчки в рейтинге Chatbot Arena — платформы, где пользователи оценивают LLM, общаясь с двумя моделями одновременно и сравнивая их ответы, не зная их названий.

До официального запуска Grok 3 ранняя версия модели работала в Arena под названием «chocolate» и заняла первое место, опередив Gemini, GPT-4o, DeepSeek R1 и другие модели во всех категориях. Кроме того, она стала первой моделью, преодолевшей порог в 1400 баллов в рейтинге Arena.

Функция глубокого исследования — DeepSearch

Чтобы удовлетворить спрос на расширенные агентные возможности, xAI запустила DeepSearch — функцию, аналогичную глубоким исследовательским возможностям от OpenAI и Google. С DeepSearch пользователи могут задать вопрос, после чего Grok обдумает его, выполнит поиск в интернете, продемонстрирует ход своих мыслей и затем сформирует окончательный, подробный ответ с данными и таблицами по необходимости. Это значит, что вы можете поручить модели провести исследование по теме, вернуться через 10 минут — и задача будет выполнена.

Одной из самых ярких особенностей является возможность просматривать ход мыслей Grok — «читать мысли Grok» — и понимать, как модель пришла к окончательному ответу. Это делает процесс более управляемым и помогает лучше разобраться в полученных результатах.

Как получить доступ к Grok 3

С 18 февраля некоторые модели Grok доступны в бета-версии. Grok 3 можно использовать через подписку X Premium+, что также дает доступ к последним функциям, увеличенному лимиту использования, DeepSearch и расширенным режимам рассуждения, которые активируются кнопками «Думать» (Think) или «Большой мозг» (Big Brain).

Подписка X Premium+ теперь стоит 40 долларов в месяц (ранее была 22 доллара), и подписчикам рекомендуется обновить приложение для доступа к новым функциям.

xAI также представила новый уровень подписки — SuperGrok, аналогичный ChatGPT Pro, предназначенный для энтузиастов, желающих получить ранний доступ к самым передовым функциям. Цена этого плана пока не объявлена, но можно ожидать, что она будет довольно высокой, ведь подписка OpenAI Pro стоит 200 долларов в месяц.

Для самой отточенной версии Маск советует подождать неделю — к тому времени, скорее всего, будет готова новая голосовая интеграция.

Вы можете опробовать Grok 3 через Chatbot Arena. Для этого зайдите на сайт, выберите режим сравнения (Arena side-by-side) или прямой режим (Direct Chat), в выпадающем списке выберите «early-grok-3» и введите пример запроса. Несмотря на то, что в Arena используется ранняя версия Grok 3, она остается мощной моделью — ведь она достигла вершины таблицы лидеров по сравнению с другими, уже обновленными моделями.

© . По материалам ZDNet
Комментарии и отзывы

Нашли ошибку?

Новое на сайте