Аварийное восстановление и обеспечение безопасности данных¶
Инфраструктура хостинга использует дополнительные инструменты, чтобы сохранить и защитить ваши данные. Даже в экстремальной ситуации полной потери дата-центра, мы гарантируем безопасность вашей информации. Ниже приведем основные методы аварийного восстановления, рассчитанные на самые худшие сценарии.
Восстановление после сбоев¶
Использование Amazon Web Service, Google Cloud Platform, Yandex Cloud, OVH и других сервисов хранения данных¶
Мы используем множество платформ для хранения данных, дублирующих информацию. Все перечисленные компании — крупнейшие поставщики облачных вычислений в мире. В их распоряжении находятся самые современные центры обработки данных, рассчитанные даже на самые критические случаи. Они используют те же технологии и оборудование, на которых работают Amazon, Google apps, Yandex и многие другие мировые гиганты, а значит гарантируют высокую степень безопасности и надежности.
Автоматические снапшоты и резервное копирование каждого проекта¶
Мы сохраняем моментальные снимки (снапшоты) сайта каждые 24 часа в течение 30 дней, или в соответствии с персональными требованиями вашего бизнеса. Если вам нужен другой период резервного копирования, обращайтесь к нам.
Если ваш сайт пострадал в результате инцидента, не связанного с нашей инфраструктурой, у вас останутся резервные копии сайта. Мы восстановим их по вашему запросу в максимально короткий срок.
Снапшоты текущего состояния виртуальной машины¶
Помимо автоматического резервного копирования сайта клиента, мы создаем и храним снапшоты сервера и компонентов нашей инфраструктуры каждые 12 часов в течение 24 часов.
Это означает, что если снапшоты вашего сайта по какой-то причине окажутся непригодными для использования, у нас есть данные всей нашей инфраструктуры, которые мы можем использовать для восстановления ваших данных.
Мониторинг состояния всех сайтов и серверов¶
Мы ежеминутно проверяем состояние всех сайтов, функционирующих на нашем хостинге. Кроме того, мы отслеживаем ~300 метрик операционной системы и серверного ПО, 50 параметров оборудования каждые 1-5 минут по мере необходимости.
Итого 1440 проверок каждого вашего сайта и 250 000 серверных метрик в день. На основе этих данных мы делаем аналитические прогнозы и составляем процедуры AI-обучения для триггеров. Если мы заметим ошибки или уязвимости на вашем сайте, наша команда заранее свяжется с вами — еще до того, как вы сами заметите проблему.
Благодаря такому подходу мы совершенствуем нашу систему мониторинга, чтобы оперативнее устранять возможные инциденты в будущем.
Своевременное информирование¶
Уведомления о возникших проблемах мгновенно приходят на электронную почту и в виде тикета в верхней части панели управления Scalehost. Также мы дополнительно отправляем сообщения в Slack и Telegram.
Этапы аварийного восстановления данных¶
- Шаг 0: Начало инцидента (00:00)
- Попытка исправить ситуацию методами самовосстановления
- Шаг 1: Оповещение дежурного специалиста (01:00)
- Начало работ по устранению инцидента, определение первопричины проблемы
- Оповещение клиента о критических проблемах
- Шаг 2: Определение первопричины, определение сроков и запланированных дальнейших работ (05:00)
- Уведомление клиента
- Шаг 3: Формирование окончательного плана аварийного восстановления (15:00)
- Предоставление рекомендаций
- Получение необходимых доступов от клиента, если необходимые отсутствуют
- Шаг 4: Предфинальная оценка ситуации (30:00)
- Предфинальная оценка ситуации на основе данных мониторинга и данных (или их отсутствия) от поставщика услуг
- Ожидание доступа, если он необходим для восстановления после стихийных бедствий
- Восстановление переходит в статус «в ожидании»
- Шаг 5: Начало работ по восстановлению (45:00)
- Начало работ по восстановлению на новом сервере из ближайшего снапшота или резервной копии
- После инцидента (45:00+)
- Описание причин и того, что было сделано нашими специалистами
- Рекомендации и работа по предотвращению подобного в будущем