Москва
Обязанности:
- Обеспечивать высокую доступность, отказоустойчивость и надежность сервисов компании;
- Руководить командой SRE и развивать ее;
- Внедрять единые SRE-практики и разрабатывать рекомендации по повышению производительности и отказоустойчивости систем;
- Ведение проектов повышения надежности систем;
- Участие в принятии архитектурных решений;
- Анализ и разбор происходящих сбоев систем;
- Развитие observability;
- Инцидент-менеджмент: анализ инцидентов, планирование работ по их недопущению, реагирование на возникновение критических инцидентов;
Требования:
- Опыт управления SRE/DevOps командами от 2х лет (постановка целей и контроль их исполнения);
- Опыт внедрения и развития SRE-практик;
- Опыт работы с микросервсной архитектурой высоконагруженных проектов;
- Имеете опыт внедрения метрик SLO/SLI/SLA/ и применение их в рабочем процессе;
- Есть уверенные знания и навыки администрирования ОС семейства Linux;
- Есть опыт внедрения систем управления конфигурацией;
- Работали с CI/CD в GitLab;
- Имеете опыт внедрения observability-инструментов;
- Общая база в IT: сети, работа с данными, протоколы интернета, RPC и т. д.;
- Будет плюсом знание одного из скриптовых или интерпретируемым языков программирования.
Условия:
- Оформление в аккредитованную IT-компанию;
- Гибридный/удаленный график и комфортный офис;
- Расширенный пакет ДМС со стоматологией, выездом врачей на дом. К ДМС можно подключать детей через 1 год работы;
- Внутрикорпоративное обучение;
- Скидки в наших магазинах и льготные условия от партнеров;
- Корпоративная столовая;
- Премии по результатам работы;
- Возможность влиять на процессы, принимать решения и реализовывать свои идеи;
- Участие в проектах федерального масштаба.