Лаборатория исследований искусственного интеллект Yandex Research совместно с ведущими вузами — НИУ ВШЭ, MIT, ISTA и KAUST — представила новый метод эффективной квантизации больших языковых моделей (LLM), позволяющий запускать их даже на смартфонах и ноутбуках. Для этого больше не нужны дорогие серверы с мощными видеокартами.
Разработка открывает путь к более широкому применению LLM: от стартапов и образовательных учреждений до независимых исследователей и энтузиастов. Новый метод позволяет сжимать модели за считаные минуты прямо на пользовательском устройстве, без необходимости предварительной подготовки на специализированной инфраструктуре.
LLM без серверов: теперь это возможно
Ранее запуск больших моделей на смартфоне или ноутбуке был возможен только после трудоёмкой квантизации — процесса, требующего дорогостоящих серверов и занимавшего от нескольких часов до недель. Новый метод меняет правила игры: сжатие можно выполнить локально, быстро и без потери качества модели.
Теперь с большими языковыми моделями можно работать буквально в любом месте — достаточно обычного ноутбука.
Это делает нейросети доступными даже в условиях ограниченных вычислительных ресурсов — например, в образовательной или социальной сфере, а также при разработке прототипов, где скорость важнее всего. Яндекс уже использует метод в собственных экспериментах — сжатые модели позволяют быстрее тестировать идеи и запускать новые сервисы.
HIGGS — новый подход к квантизации
Предложенный учёными метод получил название HIGGS — сокращение от Hadamard Incoherence with Gaussian MSE-optimal GridS. В его основе — математическая техника, позволяющая уменьшить размер модели без дополнительной оптимизации или использования обучающих данных.
- Не требует доступа к исходным данным для дообучения;
- Идеально подходит для работы в ограниченной среде;
- Совместим с моделями на сотни миллиардов параметров, включая DeepSeek-R1 и Llama 4 Maverick;
- Обеспечивает лучшее соотношение «качество/размер» среди всех известных бездатасетных методов.
Эксперименты показали, что HIGGS превосходит существующие подходы — такие как NF4 и HQQ — по сохранению точности модели при сильном сжатии. Метод успешно протестировали на популярных LLM: Llama 3, Qwen2.5 и других.
Исходный код и документация уже доступны на Hugging Face и GitHub. Научная статья опубликована на arXiv.
Признание научного сообщества
Работа с HIGGS была принята на престижную конференцию NAACL 2025, которая пройдёт в апреле в США. Это одна из крупнейших мировых площадок в области обработки естественного языка. Среди участников — Google, Microsoft Research, Гарвард и другие мировые лидеры в области ИИ.
Статья уже получила отклики от исследователей из Red Hat AI, Пекинского и Гонконгского университетов, Фуданьского университета и других научных центров. Это подтверждает высокий интерес к методике и её потенциальную ценность для всего сообщества.
Что дальше?
Команда Yandex Research активно развивает направление доступной и энергоэффективной квантизации. За последние месяцы они представили более десяти научных работ по сжатию LLM, включая методы, сокращающие потребление ресурсов в 8 раз при сохранении качества ответов.
Также был создан сервис, позволяющий запускать языковую модель с 8 миллиардами параметров прямо в браузере — без выделенного оборудования. Всё это делает передовые ИИ-технологии более открытыми и универсальными.
LLM становятся ближе — даже без кластеров и дата-центров.
Новый метод HIGGS — ещё один шаг к будущему, где искусственный интеллект сможет использовать каждый разработчик, исследователь и инженер — вне зависимости от бюджета и инфраструктуры.
Обновления программ, что нового
• Старые смартфоны Samsung Galaxy начнут получать стабильную версию One UI 7 уже на следующей неделе
• Dimensity 9400+ от MediaTek: новый чип против Snapdragon 8 Elite
• Сбой в WhatsApp: сообщения не отправляются в групповые чаты
• Razer запустила PC Remote Play — сервис для стриминга игр с Windows ПК на iPhone, iPad и Android
• РБК: В России обсуждают запрет опасного ИИ, маркировку контента и ответственность разработчиков нейросетей
• Yandex Research: Метод HIGGS позволяет запускать большие языковые модели (LLM) на ноутбуках без потери качества