ИИ-стартап DeepSeek допустил утечку данных: открытая база содержала историю чатов и ключи API

Wiz Research обнаружила открытую базу данных DeepSeek, содержащую конфиденциальную информацию, включая историю чатов

Публично доступная база данных DeepSeek позволяла получить полный контроль над операциями с базой, включая доступ к внутренним данным. Утечка затронула более миллиона строк логов, содержащих конфиденциальную информацию.

Команда Wiz Research выявила открытую базу данных из системы управления ClickHouse*, принадлежащую DeepSeek, которая позволяла выполнять полный контроль над операциями с базой, включая доступ к внутренним данным. В результате утечки были скомпрометированы более миллиона строк логов, содержащих историю чатов, секретные ключи, данные бэкенда и другую чувствительную информацию.

* ClickHouse — это мощная система управления базами данных, разработанная компанией Яндекс и широко используемая для аналитики больших данных и хранения логов. Учитывая ее предназначение, доступ к такой базе данных без ограничений представляет серьезную угрозу.

Примечание. В Яндексе уточнили, что ClickHouse — это не база данных, а система управления базами данных, выложенная в опенсорс. ClickHouse — это опенсорс-продукт независимой компании. Когда бизнес использует продукт в опенсорсе, он самостоятельно настраивает безопасность и берет ответственность за защиту данных.

Исследователи Wiz Research немедленно сообщили о проблеме DeepSeek, после чего компания оперативно устранила уязвимость. Подробнее разберем проблему и рассмотрим ее последствия для индустрии.

Краткий обзор

Китайский стартап DeepSeek недавно привлек большое внимание СМИ благодаря своим передовым моделям ИИ, в частности DeepSeek-R1, которая по эффективности конкурирует с передовыми системами, такими как OpenAI o1, но при этом отличается доступностью и высокой производительностью.

Китайский чат-бот DeepSeek теперь на Android и iPhone: Мобильное приложение доступно в России без ограничений

На фоне растущего интереса к DeepSeek команда Wiz Research решила изучить внешний уровень безопасности компании и выявить возможные уязвимости.

Практически сразу была обнаружена публично доступная база данных, связанная с DeepSeek. Она была полностью открыта и не требовала аутентификации, что позволяло лицу любому получить доступ к конфиденциальным данным. База данных размещалась по следующим адресам:

oauth2callback.deepseek.com:9000
dev.deepseek.com:9000

Среди утекших данных оказались история чатов, информация о бэкенде, ключи API, логи операций и другие критически важные данные.

Более того, уязвимость позволяла не только просматривать информацию, но и полностью управлять базой данных, а также повышать привилегии внутри среды DeepSeek — и все это без каких-либо механизмов защиты или аутентификации.

Разбор уязвимости

Исследование началось с анализа публично доступных доменов DeepSeek. С помощью пассивных и активных методов разведки было выявлено около 30 поддоменов. Большинство из них казались безобидными — они использовались для чатов, страниц статуса и документации API.

Однако при дальнейшем анализе было обнаружено два открытых нестандартных порта (8123 и 9000) на следующих хостах:

http://oauth2callback.deepseek.com:8123
http://dev.deepseek.com:8123
http://oauth2callback.deepseek.com:9000
http://dev.deepseek.com:9000

Эти порты вели к публично доступной базе данных, которая не требовала аутентификации.

Используя HTTP-интерфейс ClickHouse, был получен доступ к пути /play, что позволило выполнять SQL-запросы напрямую через браузер. Простой запрос SHOW TABLES; вернул полный список доступных наборов данных.

Вывод таблиц из веб-интерфейса системы управления ClickHouse

Один из таких наборов log_stream, содержал огромный массив логов ( более 1 миллиона записей), включая:

timestamp — временные метки логов, начиная с 6 января 2025 года;
span_name — ссылки на внутренние API-эндпоинты DeepSeek;
string.values — текстовые логи, включая историю чатов, ключи API, данные бэкенда и метаданные операций;
_service — информация о сервисах DeepSeek, которые генерируют логи;
_source — источник лог-запросов, содержащий историю чатов, ключи API, структуры директорий и метаданные чат-бота.

Этот уровень доступа представлял серьезную угрозу не только для самой DeepSeek, но и для ее пользователей. Злоумышленник мог не только просматривать конфиденциальные данные, но и загружать файлы с сервера и извлекать пароли в открытом виде, используя запросы типа SELECT * FROM file('имя_файла').

Выводы и рекомендации

Быстрое внедрение ИИ-сервисов без надлежащей безопасности несет значительные риски. Этот случай наглядно демонстрирует, что главные угрозы для ИИ-приложений связаны не с гипотетическими атаками будущего, а с банальными проблемами кибербезопасности — например, с утечкой баз данных.

Пока индустрия обсуждает перспективные риски ИИ, реальная опасность исходит от базовых уязвимостей, которые можно и нужно предотвращать. Эти риски, которые являются основополагающими для безопасности, должны оставаться главным приоритетом для групп безопасности.

Поскольку организации спешат внедрить инструменты и сервисы ИИ от все большего числа стартапов и поставщиков, важно помнить, что, делая это, мы доверяем этим компаниям конфиденциальные данные. Быстрые темпы внедрения часто приводят к игнорированию безопасности, но защита данных клиентов должна оставаться главным приоритетом. Крайне важно, чтобы группы безопасности тесно сотрудничали с инженерами ИИ, чтобы обеспечить прозрачность архитектуры, инструментов и используемых моделей.

Заключение

ИИ развивается быстрее, чем любая другая технология в истории. Многие компании уже стали поставщиками критически важных инфраструктурных решений, но не имеют при этом необходимого уровня безопасности. Глобальная интеграция ИИ в бизнес требует осознания новых рисков и внедрения лучших практик защиты данных. Компании, работающие с ИИ, должны соблюдать те же строгие меры безопасности, что и облачные провайдеры и другие крупные технологические компании.

Угрозы безопасности

• Французские власти снова пытаются получить доступ к сообщениям в Telegram
• Опасный вирус SuperCard X ворует данные карт через NFC на Android, обходя защиту антивирусов
• Расширения Chrome с 6 миллионами установок содержат скрытый код отслеживания
• Apple устранила две уязвимости нулевого дня, которые использовались в атаках на iPhone
• В Chrome 136 будет устранена многолетняя проблема конфиденциальности
• Уязвимость WinRAR позволяет обходить предупреждения безопасности Mark of the Web в Windows