Москва
В Data Platform 10+ sre команд, основной целью которых является достижение высокой степени надежности и доступности своих сервисов и продуктов. Основная обязанность CRO координация работы команд, выстраивание инцидент менеджмента, проведение централизованных учений, распространение и контроль практик от единого в банке центра надежности.
Задачи, которыми предстоит заниматься:
- Работа над улучшениями надежности SRE-команд: процессы, observability, работа со сбоями
- Участие в устранении сбоев, работа с фризами, работа с пользователями
- Поиск и обсуждение возможностей автоматизации рутины
- Рекомендации по улучшению архитектуры систем для повышения надежности
- Аудит процессов и систем для улучшения надежности
- Написание различного SRE-тулинга для работы со сбоями, maintenance, релизами
- Разработка индикаторов доступности систем и бизнес-процессов
- Контроль за соблюдением SLA на масштабе десятков сервисов и бизнес-процессов Incident Management
Ты нам подходишь, если:
- Ты выстраивал процессы работы SRE с нуля
- Участвовал в тушении большого числа инцидентов и имеешь богатый опыт в этом
- Понимаешь важность автоматизации рутины
- Работал с несколькими командами разработки и погружался в особенности каждого продукта
- Знаком со спецификой работы с большим объемом данных (Data Platform) (nice to have)
- Разрабатывал и поддерживал требуемый уровень SLA для своих систем
Требуемые навыки и компетенции:
- Знание и понимание инструментов observability: prometheus, логи (любой стек), grafana
- Навыки troubleshooting уровня Senior
- Опыт работы с высоконагруженными системами
- Опыт работы в on-call ротации (но сами дежурства не предполагаются)
- Опыт выстраивания процессов дежурств
- Опыт работы с большими инсталяциями баз данных
- Знание одного из языков автоматизации: Python, Go
- Знакомство с принципами работы Kubernetes