Первый сбой в сервисе Эгеи

Всегда неприятно читать, когда у какой-нибудь компании что-нибудь сбойнуло в сервисе, а они попытались это скрыть от пользователей. Особенно, если какие-нибудь пароли утекли. Думаешь, ёлки, ну написали бы как есть. Не надо держать пользователей за лохов, пусть знают правду и принимают решение об использовании сервиса, владея всей информацией.

В общем, у нас этой ночью случился первый сбой в сервисе Эгеи. Проблемы начались вчера, 14 марта, в 20:38 по Москве, и были устранены сегодня в 10:29. Некоторые сайты не открывались и выдавали ошибку 502.

Проблема связана с неудачным обновлением софта на сервере. Устранение заняло так много времени, потому что мы узнали о недоступности только утром от одного из пользователей. Это, конечно, самое неприятное. Оказалось, что наша система мониторинга отслеживала не всё, что нужно.

Что плохо:

  1. Сайты были недоступны всю ночь.
  2. Мы узнали об этом не из мониторинга, а от пользователя.

Что хорошо:

  1. Данные пользователей не пострадали.
  2. Закрытые данные пользователей (черновики, пароли) не утекли наружу.

Что сделано:

  1. Изменили процесс обновления софта на сервере так, чтобы такой проблемы при обновлении больше не случалось.
  2. Подкрутили мониторинг, чтобы узнавать о таких сбоях раньше.

Спасибо, что вы с нами. Подключайтесь, если ещё нет. Надеюсь, следующий сбой будет не скоро.

Дальше
Мои книги