Замоскворецкая линия метро Аэропорт
Задачи
- Внедрять практики и инструменты стандарта надёжности на уровне продуктов
- Контролировать выполнение и развивать технологическую стратегию в направлении надёжности
- Улучшать метрики надёжности, наблюдаемость в клиентских продуктах совместно с продуктовыми командами
- Выстраивать процессы управления уровнем сервиса на основе SLA/SLO/SLI
- Участвовать в процессах postmortem по критическим инцидентам с продуктовыми командами (с учётом требований стандарта надёжности)
- Обеспечивать формирование планов и мероприятий по обеспечению непрерывности (DRP/DRT, катастрофоустойчивость, подтверждение заявленных RTO/RPO)
- Проводить анализ ИТ-решений, взаимодействие со смежными командами и подразделениями в рамках анализа ИТ-решений и интеграций (с учётом критериев стандарта надёжности)
Требования
-
Опыт внедрения практик и инструментов SRE и DevOps
-
Практический опыт локализации проблем и устранения инцидентов в больших и сложных системах
-
Опыт разработки SLA/SLI/SLO и знание принципов их формирования
-
Опыт построения отказоустойчивых распределённых хранилищ на базе YT, Mongo, Postgres, Elastic, ClikHouse
-
Знание принципов и практик построения облачных платформ и инфраструктуры геораспределённых систем
-
Практический опыт внедрения практик и инструментов Capacity Management, Availability Management, Business Continuity Management
-
Знание принципов работы SCM-систем и современных средств мониторинга и автоматизации управления инфраструктурой
-
Знание принципов и методов обеспечения качества и надёжности ИТ-сервисов