1-й Красногвардейский проезд 22с1
Яндекс Еда — высоконагруженный сервис по доставке еды из ресторанов и продуктов из магазинов с огромной функциональностью. У нас микросервисная архитектура на C++, Gо и Python, монолит на PHP.
Отдел технологической платформы — ядро инженерных компетенций компании. Мы не работаем напрямую с продуктом, но оказываем значительное влияние на его скорость, качество и стабильность. Мы создаём инструменты и инфраструктуру, которые позволяют продуктовым командам разрабатывать, тестировать и выкатывать фичи быстрее и надёжнее.
Наша зона ответственности — всё, что делает сервисы быстрыми, стабильными и технологически совершенными:
- архитектура и устойчивость;
- безопасность и производительность;
- логирование и наблюдаемость;
- процессы CI/CD и сборки.
Сейчас мы ищем проектного менеджера, который будет вести проекты по надёжности и развивать процессы инцидент-менеджмента в масштабах всей Яндекс Еды.
Какие задачи вас ждут:
Организация и контроль проектов надёжности
Вам предстоит обсуждать приоритеты и скоуп проектов вместе с директором по надёжности, находить ресурсы для реализации проектов, взаимодействовать со смежными бизнес-юнитами для запуска совместных инициатив и проектов, контролировать сроки и риски по проектам.
Контроль метрик надёжности
Вы будете собирать дашборды с метриками надёжности и доступности, разбираться в метриках и графиках надёжности (SLO, SLA и т. д.), рассказывать коллегам о текущей ситуации, организовывать учения и регламентные работы, в том числе совместно со смежными бизнес-юнитами.
Развитие и поддержка процессов управления инцидентами
Нужно будет проводить встречи, посвящённые разбору инцидентов, а также контролировать сроки принятия мер по устранению инцидентов, участвовать в координации инцидентов, работать с командами над вовлечённостью в разбор инцидентов.
Мы ждем, что вы
- Больше трёх лет управляли IT-проектами
- Выстраивали процессы инцидент-менеджмента
- Имеете опыт в Reliability Engineering (SRE): проекты, построение дашбордов, внедрение SLO/SLA и т. д.
- Глубоко понимаете функционирование IT-систем и сервисов