Первый сбой в сервисе Эгеи
Всегда неприятно читать, когда у какой-нибудь компании что-нибудь сбойнуло в сервисе, а они попытались это скрыть от пользователей. Особенно, если какие-нибудь пароли утекли. Думаешь, ёлки, ну написали бы как есть. Не надо держать пользователей за лохов, пусть знают правду и принимают решение об использовании сервиса, владея всей информацией.
В общем, у нас этой ночью случился первый сбой в сервисе Эгеи. Проблемы начались вчера, 14 марта, в 20:38 по Москве, и были устранены сегодня в 10:29. Некоторые сайты не открывались и выдавали ошибку 502.
Проблема связана с неудачным обновлением софта на сервере. Устранение заняло так много времени, потому что мы узнали о недоступности только утром от одного из пользователей. Это, конечно, самое неприятное. Оказалось, что наша система мониторинга отслеживала не всё, что нужно.
Что плохо:
- Сайты были недоступны всю ночь.
- Мы узнали об этом не из мониторинга, а от пользователя.
Что хорошо:
- Данные пользователей не пострадали.
- Закрытые данные пользователей (черновики, пароли) не утекли наружу.
Что сделано:
- Изменили процесс обновления софта на сервере так, чтобы такой проблемы при обновлении больше не случалось.
- Подкрутили мониторинг, чтобы узнавать о таких сбоях раньше.
Спасибо, что вы с нами. Подключайтесь, если ещё нет. Надеюсь, следующий сбой будет не скоро.