Yandex Research: Метод HIGGS позволяет запускать большие языковые модели (LLM) на ноутбуках без потери качества

2025-04-11 2635 комментарии
Учёные из Яндекса, НИУ ВШЭ, MIT, KAUST и ISTA представили метод HIGGS, позволяющий сжимать большие языковые модели и запускать их на обычных устройствах — ИИ доступен без мощных серверов и GPU

Лаборатория исследований искусственного интеллект Yandex Research совместно с ведущими вузами — НИУ ВШЭ, MIT, ISTA и KAUST — представила новый метод эффективной квантизации больших языковых моделей (LLM), позволяющий запускать их даже на смартфонах и ноутбуках. Для этого больше не нужны дорогие серверы с мощными видеокартами.

Разработка открывает путь к более широкому применению LLM: от стартапов и образовательных учреждений до независимых исследователей и энтузиастов. Новый метод позволяет сжимать модели за считаные минуты прямо на пользовательском устройстве, без необходимости предварительной подготовки на специализированной инфраструктуре.

LLM без серверов: теперь это возможно

Ранее запуск больших моделей на смартфоне или ноутбуке был возможен только после трудоёмкой квантизации — процесса, требующего дорогостоящих серверов и занимавшего от нескольких часов до недель. Новый метод меняет правила игры: сжатие можно выполнить локально, быстро и без потери качества модели.

Теперь с большими языковыми моделями можно работать буквально в любом месте — достаточно обычного ноутбука.

Это делает нейросети доступными даже в условиях ограниченных вычислительных ресурсов — например, в образовательной или социальной сфере, а также при разработке прототипов, где скорость важнее всего. Яндекс уже использует метод в собственных экспериментах — сжатые модели позволяют быстрее тестировать идеи и запускать новые сервисы.

HIGGS — новый подход к квантизации

Предложенный учёными метод получил название HIGGS — сокращение от Hadamard Incoherence with Gaussian MSE-optimal GridS. В его основе — математическая техника, позволяющая уменьшить размер модели без дополнительной оптимизации или использования обучающих данных.

  • Не требует доступа к исходным данным для дообучения;
  • Идеально подходит для работы в ограниченной среде;
  • Совместим с моделями на сотни миллиардов параметров, включая DeepSeek-R1 и Llama 4 Maverick;
  • Обеспечивает лучшее соотношение «качество/размер» среди всех известных бездатасетных методов.

Эксперименты показали, что HIGGS превосходит существующие подходы — такие как NF4 и HQQ — по сохранению точности модели при сильном сжатии. Метод успешно протестировали на популярных LLM: Llama 3, Qwen2.5 и других.

Исходный код и документация уже доступны на Hugging Face и GitHub. Научная статья опубликована на arXiv.

Признание научного сообщества

Работа с HIGGS была принята на престижную конференцию NAACL 2025, которая пройдёт в апреле в США. Это одна из крупнейших мировых площадок в области обработки естественного языка. Среди участников — Google, Microsoft Research, Гарвард и другие мировые лидеры в области ИИ.

Статья уже получила отклики от исследователей из Red Hat AI, Пекинского и Гонконгского университетов, Фуданьского университета и других научных центров. Это подтверждает высокий интерес к методике и её потенциальную ценность для всего сообщества.

Что дальше?

Команда Yandex Research активно развивает направление доступной и энергоэффективной квантизации. За последние месяцы они представили более десяти научных работ по сжатию LLM, включая методы, сокращающие потребление ресурсов в 8 раз при сохранении качества ответов.

Также был создан сервис, позволяющий запускать языковую модель с 8 миллиардами параметров прямо в браузере — без выделенного оборудования. Всё это делает передовые ИИ-технологии более открытыми и универсальными.

LLM становятся ближе — даже без кластеров и дата-центров.

Новый метод HIGGS — ещё один шаг к будущему, где искусственный интеллект сможет использовать каждый разработчик, исследователь и инженер — вне зависимости от бюджета и инфраструктуры.

© . По материалам Яндекс
Комментарии и отзывы

Нашли ошибку?

Новое на сайте