Аварийное восстановление и обеспечение безопасности данных¶

Инфраструктура хостинга использует дополнительные инструменты, чтобы сохранить и защитить ваши данные. Даже в экстремальной ситуации полной потери дата-центра, мы гарантируем безопасность вашей информации. Ниже приведем основные методы аварийного восстановления, рассчитанные на самые худшие сценарии.

Восстановление после сбоев¶

Использование Amazon Web Service, Google Cloud Platform, Yandex Cloud, OVH и других сервисов хранения данных¶

Мы используем множество платформ для хранения данных, дублирующих информацию. Все перечисленные компании — крупнейшие поставщики облачных вычислений в мире. В их распоряжении находятся самые современные центры обработки данных, рассчитанные даже на самые критические случаи. Они используют те же технологии и оборудование, на которых работают Amazon, Google apps, Yandex и многие другие мировые гиганты, а значит гарантируют высокую степень безопасности и надежности.

Автоматические снапшоты и резервное копирование каждого проекта¶

Мы сохраняем моментальные снимки (снапшоты) сайта каждые 24 часа в течение 30 дней, или в соответствии с персональными требованиями вашего бизнеса. Если вам нужен другой период резервного копирования, обращайтесь к нам.

Если ваш сайт пострадал в результате инцидента, не связанного с нашей инфраструктурой, у вас останутся резервные копии сайта. Мы восстановим их по вашему запросу в максимально короткий срок.

Снапшоты текущего состояния виртуальной машины¶

Помимо автоматического резервного копирования сайта клиента, мы создаем и храним снапшоты сервера и компонентов нашей инфраструктуры каждые 12 часов в течение 24 часов.

Это означает, что если снапшоты вашего сайта по какой-то причине окажутся непригодными для использования, у нас есть данные всей нашей инфраструктуры, которые мы можем использовать для восстановления ваших данных.

Мониторинг состояния всех сайтов и серверов¶

Мы ежеминутно проверяем состояние всех сайтов, функционирующих на нашем хостинге. Кроме того, мы отслеживаем ~300 метрик операционной системы и серверного ПО, 50 параметров оборудования каждые 1-5 минут по мере необходимости.

Итого 1440 проверок каждого вашего сайта и 250 000 серверных метрик в день. На основе этих данных мы делаем аналитические прогнозы и составляем процедуры AI-обучения для триггеров. Если мы заметим ошибки или уязвимости на вашем сайте, наша команда заранее свяжется с вами — еще до того, как вы сами заметите проблему.

Благодаря такому подходу мы совершенствуем нашу систему мониторинга, чтобы оперативнее устранять возможные инциденты в будущем.

Своевременное информирование¶

Уведомления о возникших проблемах мгновенно приходят на электронную почту и в виде тикета в верхней части панели управления Scalehost. Также мы дополнительно отправляем сообщения в Slack и Telegram.

Этапы аварийного восстановления данных¶

Шаг 0: Начало инцидента (00:00)
- Попытка исправить ситуацию методами самовосстановления
Шаг 1: Оповещение дежурного специалиста (01:00)
- Начало работ по устранению инцидента, определение первопричины проблемы
- Оповещение клиента о критических проблемах
Шаг 2: Определение первопричины, определение сроков и запланированных дальнейших работ (05:00)
- Уведомление клиента
Шаг 3: Формирование окончательного плана аварийного восстановления (15:00)
- Предоставление рекомендаций
- Получение необходимых доступов от клиента, если необходимые отсутствуют
Шаг 4: Предфинальная оценка ситуации (30:00)
- Предфинальная оценка ситуации на основе данных мониторинга и данных (или их отсутствия) от поставщика услуг
- Ожидание доступа, если он необходим для восстановления после стихийных бедствий
- Восстановление переходит в статус «в ожидании»
Шаг 5: Начало работ по восстановлению (45:00)
- Начало работ по восстановлению на новом сервере из ближайшего снапшота или резервной копии
После инцидента (45:00+)
- Описание причин и того, что было сделано нашими специалистами
- Рекомендации и работа по предотвращению подобного в будущем