Менеджер по надёжности в Яндекс Еду

Дата размещения вакансии: 17.09.2025
Работодатель: Яндекс
Уровень зарплаты:
з/п не указана
Город:
Москва
1-й Красногвардейский проезд 22с1
Требуемый опыт работы:
От 3 до 6 лет

Яндекс Еда — высоконагруженный сервис по доставке еды из ресторанов и продуктов из магазинов с огромной функциональностью. У нас микросервисная архитектура на C++, Gо и Python, монолит на PHP.

Отдел технологической платформы — ядро инженерных компетенций компании. Мы не работаем напрямую с продуктом, но оказываем значительное влияние на его скорость, качество и стабильность. Мы создаём инструменты и инфраструктуру, которые позволяют продуктовым командам разрабатывать, тестировать и выкатывать фичи быстрее и надёжнее.

Наша зона ответственности — всё, что делает сервисы быстрыми, стабильными и технологически совершенными:

  • архитектура и устойчивость;
  • безопасность и производительность;
  • логирование и наблюдаемость;
  • процессы CI/CD и сборки.

Сейчас мы ищем проектного менеджера, который будет вести проекты по надёжности и развивать процессы инцидент-менеджмента в масштабах всей Яндекс Еды.

Какие задачи вас ждут:

Организация и контроль проектов надёжности
Вам предстоит обсуждать приоритеты и скоуп проектов вместе с директором по надёжности, находить ресурсы для реализации проектов, взаимодействовать со смежными бизнес-юнитами для запуска совместных инициатив и проектов, контролировать сроки и риски по проектам.

Контроль метрик надёжности
Вы будете собирать дашборды с метриками надёжности и доступности, разбираться в метриках и графиках надёжности (SLO, SLA и т. д.), рассказывать коллегам о текущей ситуации, организовывать учения и регламентные работы, в том числе совместно со смежными бизнес-юнитами.

Развитие и поддержка процессов управления инцидентами
Нужно будет проводить встречи, посвящённые разбору инцидентов, а также контролировать сроки принятия мер по устранению инцидентов, участвовать в координации инцидентов, работать с командами над вовлечённостью в разбор инцидентов.

Мы ждем, что вы

  • Больше трёх лет управляли IT-проектами
  • Выстраивали процессы инцидент-менеджмента
  • Имеете опыт в Reliability Engineering (SRE): проекты, построение дашбордов, внедрение SLO/SLA и т. д.
  • Глубоко понимаете функционирование IT-систем и сервисов