«Яндекс» объяснил причину масштабного сбоя в дата-центре

2025-04-07 1157 комментарии
Компания «Яндекс» раскрыла детали инцидента 30 марта, когда отказ питания дата-центра нарушил работу сервисов Yandex Cloud. Приняты меры по улучшению отказоустойчивости инфраструктуры

Компания «Яндекс» опубликовала результаты предварительного расследования инцидента, который произошёл 30 марта и затронул работу одного из её дата-центров. Сбой повлиял на функционирование облачной платформы Yandex Cloud и некоторых сервисов компании.

Предыстория

Дата-центр, на котором случилась авария, получает электропитание от национальных электросетей через ближайшую опорную подстанцию 220 кВ. Электроэнергия поступает в центр по двум независимым линиям 110 кВ. Подстанцией управляет сторонняя компания, тогда как за промежуточное оборудование (кабели, собственную подстанцию ДЦ и прочие элементы) отвечает сам «Яндекс».

Одна линия полностью покрывает потребности дата-центра, вторая необходима для резервирования. Такая схема позволяет избегать сбоев при неполадках и проводить профилактические работы без полного отключения ДЦ.

Что произошло

30 марта в 12:25 произошла авария на опорной подстанции. Подобные инциденты случались ранее, однако благодаря резервированию не влияли на работу дата-центра. В этот раз ситуация стала беспрецедентной: впервые за 15 лет эксплуатации объекта вышли из строя обе линии электропитания. Более того, подобный масштаб аварии произошёл впервые за всё время существования подстанции с 1960 года.

До восстановления подачи питания в 15:30 инфраструктура дата-центра работала исключительно на дизель-генераторах. Благодаря этому удалось сохранить функционирование критически важных систем (например, центров управления сетями и сервисов безопасности). В результате работу ДЦ удалось полностью восстановить уже к полуночи. Без дизельных генераторов устранение последствий заняло бы несколько дней.

Кого затронула авария

После аварии нагрузка была перераспределена между другими дата-центрами «Яндекса». Во время перестройки системы некоторые пользователи кратковременно испытывали проблемы с работой сервисов компании, таких как «Яндекс.Музыка» и «Лавка». Масштабного сбоя удалось избежать благодаря тому, что сервисы компании проектируются по принципу отказоустойчивости: они могут продолжать работу даже при полном выходе из строя одного ДЦ.

Однако в затронутом дата-центре расположена зона доступности ru-central1-b платформы Yandex Cloud. Приложения, размещённые только в этой зоне, были недоступны до окончания восстановительных работ. Сервисы, размещённые в нескольких зонах одновременно, могли временно испытывать сбои, пока нагрузка перераспределялась.

Меры по предотвращению повторения инцидентов

Инцидент показал, что двойной отказ энергоснабжения является редким, но возможным сценарием. В связи с этим «Яндекс» проведёт переоценку рисков, связанных с энергоснабжением ДЦ, и примет дополнительные меры защиты от подобных ситуаций.

В частности, теперь сценарий двойного отказа будет включён в регулярные учения персонала дата-центров. Также планируется внедрить изменения в системы управления инфраструктурой для ускорения процедуры «холодного старта» после полного отключения питания. Yandex Cloud рассматривает возможность дополнительного резервирования систем энергоснабжения, включая использование дизель-генераторов в штатном режиме как резервного источника.

Кроме того, Yandex Cloud продолжит развивать инструменты мультизональной отказоустойчивости и пополнять библиотеку архитектурных решений. Один из таких инструментов — технология Zonal Shift, позволяющая оперативно перераспределять нагрузку между зонами при отказах.

Подробный разбор произошедшего опубликован в блоге «Яндекса» на «Хабре».

© .
Комментарии и отзывы

Нашли ошибку?

Новое на сайте