Крупнейшей новостью в мире ИИ в этом году должно было стать объявление OpenAI о проекте Stargate 21 января. Этот проект предполагает инвестиции в размере 500 миллиардов долларов в ИИ-инфраструктуру для «обеспечения лидерства США в сфере ИИ». Однако за день до этого малоизвестная китайская компания DeepSeek представила свою седьмую крупную языковую модель, которая на первый взгляд осталась без внимания. Тем не менее, всего за несколько недель данная LLM изменила ландшафт искусственного интеллекта, где доминировал ChatGPT. Все это заставило таких гигантов, как OpenAI, пересмотреть свои бизнес-стратегии.
Что такое DeepSeek?
DeepSeek — это китайская ИИ-компания, основанная Лян Вэньфэном (Liang Wenfang), сооснователем успешного хедж-фонда, использующего ИИ для инвестиционных решений. В 2023 году Лян запустил DeepSeek как сторонний проект, преследующий цель создания общего искусственного интеллекта, но это оказалось не просто увлечением эксцентричного миллионера.
Лян начал строить собственный дата-центр ещё в 2015 году, имея всего 100 видеокарт. В 2019 году он запустил Fire-Flyer 1 с 1100 видеокартами и вложением в 30 млн долларов. Затем, инвестировав 140 млн долларов, он представил Fire-Flyer 2 в 2021 году, оснащенный 10 000 видеокартами Nvidia A100 (40GB–80GB, &1TB/s, ~10 000 долларов за штуку). Именно тогда он решил всерьез заняться ИИ и создал DeepSeek.
Чем занимался DeepSeek до 2025 года?
Лян не терял времени даром. Менее чем через шесть месяцев после основания DeepSeek в ноябре 2023 года компания выпустила DeepSeek-Coder и DeepSeek-LLM. В январе 2024 года появился DeepSeek-MoE, построенный на архитектуре «микса экспертов» (mixture-of-experts), что сделало его мощным и популярным.
В мае 2024 года DeepSeek устроил настоящий фурор, выпустив модель V2 с настолько низкими ценами на токены, что это вызвало ценовую войну в Китае. Alibaba, ByteDance и Tencent были вынуждены снизить стоимость своих ИИ-услуг, чтобы не отставать. 26 декабря 2024 года, спустя всего семь месяцев после релиза V2, DeepSeek представил V3, что и стало отправной точкой его нынешнего успеха.
Чем так хороши DeepSeek-V3 и DeepSeek-R1?
DeepSeek-V3
DeepSeek-V3 — это большая языковая модель общего назначения, которая работает немного лучше, чем GPT-4o и другие ведущие LLM в большинстве тестов. То, что V3 немного лучше, чем 4o, не кажется большой новостью, учитывая, что индустрия ИИ находится в гонке вооружений с тех пор, как в 2020 году появился GPT-3 от OpenAI. Примечательны условия, при которых V3 превосходит 4o.
Хотя V3 была обучена с 671 миллиардом параметров, DeepSeek утверждает, что стоимость обучения этой модели составила около 6 миллионов долларов (на основе 2,788 миллионов часов обучения на графических процессорах H800 по цене 2 доллара за час работы графического процессора, что примерно соответствует рыночной ставке). Генеральный директор OpenAI Сэм Альтман (Sam Altman) однажды пошутил, что GPT-4 (предшественник GPT-4o) стоил более 100 миллионов долларов. Разница в стоимости обучения двух моделей с одинаковой мощностью настолько значительна, что потрясла рынок.
Кроме того, V3 использует смешанную архитектуру экспертов, то есть она не активирует все свои 671 миллиард параметров для каждого запроса. Она использует только около 37 миллиардов из них. Это эквивалентно более быстрым ответам и более низким вычислительным затратам на запрос, что позволяет DeepSeek взимать меньшую плату за свои токены. OpenAI взимает 2,50 доллара за миллион входных токенов и 10 долларов за миллион выходных токенов на своей модели GPT-4o. DeepSeek взимает 0,14 доллара за миллион входных токенов и 0,28 доллара за миллион выходных токенов. Разница в цене ошеломляет.
Модель | Вход (за 1 млн токенов) | Выход (за 1 млн токенов) |
---|---|---|
DeepSeek-V3 | 0.14$ | 0.28$ |
GPT-4o | 2.50$ | 10.00$ |
DeepSeek-R1
Модель DeepSeek R1 создана на основе предыдущей модели V3 и специализируется на рассуждениях, своего рода «внутреннем монологе» для LLM (также известном как цепочка мыслей). Модель изначально была создана исключительно с использованием обучения с подкреплением без контролируемого обучения.
Первоначальная модель, созданная с помощью этой техники только с подкреплением, — R1-Zero, и она развила способности к логическому рассуждению. Ее не нужно было обучать внутреннему монологу. Проблема с R1-Zero заключалась в том, что она была не очень понятной, несмотря на высокие результаты тестов. DeepSeek решила эту проблему, доработав модель с ограниченным контролируемым обучением, что привело к R1, которая могла соответствовать модели рассуждений OpenAI o1 по многочисленным тестам, при этом снижая цены OpenAI.
Модель | Вход (за 1 млн токенов) | Выход (за 1 млн токенов) |
---|---|---|
DeepSeek-R1 | 0.14$–0.55$ | 2.19$ |
OpenAI-o1 | 7.50$–15.00$ | 60.00$ |
DeepSeek не уничтожит OpenAI, но изменит рынок ИИ
Рыночные последствия выпуска DeepSeek R1 не ощущались в течение нескольких дней, но затем рынок отреагировал мощно. Индекс Nasdaq потерял 1 триллион долларов рыночной капитализации. Хуже всех пришлось компании Nvidia, которая потеряла почти 600 миллиардов долларов. Как DeepSeek могла вызвать такую реакцию?
DeepSeek сравнялся с лучшими моделями, выпущенными OpenAI, используя более дешевое оборудование (например, бюджетные телефоны) для меньшего времени обучения, что ставит под сомнение необходимость больших центров обработки данных и дорогих графических процессоров. В конце концов, зачем вкладывать 100 миллионов долларов в обучение новой модели на дорогом оборудовании, если 6 миллионов долларов и более дешевый кремний работают не хуже? Модели DeepSeek не заменят американских гигантов ИИ и не избавят от необходимости в передовых процессорах. Рынки уже почти оправились от обвала в прошлом месяце, что говорит о том, что индустрия ИИ быстро возвращается к привычной деятельности.
Однако, изменения все же произошли. Новые модели DeepSeek доказали, что перемены могут происходить благодаря более мелким игрокам, исследующим новые методы. Поскольку DeepSeek открыла источники информации о том, как она создавала свои модели, все желающие могут свободно копировать ее методы, чтобы сделать свои модели лучше.
И это уже происходит. Команда из Беркли применила алгоритм обучения с подкреплением DeepSeek для обучения модели Qwen 3B решению простых математических головоломок. На протяжении 30 долларов времени обработки та же цепочка рассуждений, что и в модели R1-Zero, появлялась в их специализированной модели, что говорит о том, что логические рассуждения, о которых сообщает DeepSeek, — не пустой звук. Другими словами, ожидайте, что новые крупные игроки будут использовать эти методы обучения, впервые разработанные DeepSeek и представленные общественности.
Гонка вооружений в области ИИ разгорается
DeepSeek не столько перехватил инициативу у крупных ИИ-компаний, сколько влил новый ветер в паруса индустрии. Компания не только продемонстрировала, что инновации могут исходить от более мелких игроков и старого оборудования, но и показала, на какие новые трюки способны ее более финансируемые конкуренты (например, Gemini и ChatGPT). Прошлый год был жарким годом для ИИ, но не стоит ожидать, что в 2025 будет передышка.
Обновления программ, что нового
• Обновление NVIDIA GeForce Game Ready 572.42 WHQL. Поддержка Avowed и Indiana Jones and the Great Circle с DLSS 4
• Релиз Opera 117: Исправление ошибки с приостановкой вкладок и обновления безопасности
• Dr.Web Family Security для Android теперь доступен в Google Play и RuStore
• DeepSeek – ИИ-проект, который нарушает статус-кво. Что мы о нем знаем?
• Apple TV теперь доступен на Android – стриминговый сервис Apple появился в Google Play
• «Яндекс» обновил главную страницу поиска – новый минималистичный дизайн