Старший инженер обеспечения надежности (SRE)

Дата размещения вакансии: 20.10.2025
Работодатель: Lamoda Tech
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

Мы в поисках Старшего инженера обеспечения надежности (SRE) в дирекцию IT.

Чем предстоит заниматься:

  • Повышать надёжность ИТ-сервисов, развивать процессы, повышающие надёжность ИТ-сервисов и инфраструктуры;
  • Участвовать в разборах инцидентов и проблем, выявлять риски и эксплуатации;
  • Участвовать в процессе архитектурного ревью ИТ-сервисов и инфраструктуры;
  • Автоматизировать и внедрять практики SRE;
  • Контролировать актуальность технической документации.

Мы ожидаем:

  • Опыт развертывания, администрирования и траблшутинга высоконагруженных систем оркестрации контейнеров, как on-prem, так и в публичных облаках (у нас Kubernetes);
  • Понимание подхода IaC и управления конфигурациями (у нас Ansible и Terraform) и умение его применять;
  • Опыт построения систем наблюдаемости, как системных, так и прикладных решений. Понимание, какие метрики собирать, куда смотреть при проблемах, какие дашборды для этого нужны (мы используем Prometheus/Grafana);
  • Понимание принципов и опыт построения отказоустойчивых сервисов и эксплуатации высоконагруженных систем (Web-серверов, СУБД, приложений);
  • Опыт построения процесса непрерывного резервного копирования инфраструктурных компонентов.

Будет плюсом:

  • Опыт администрирования: Kafka, RabbitMQ, PostgreSQL, Redis;
  • Знание и умение применять практики SRE;
  • Опыт в тестировании систем на отказоустойчивость и нагрузку (нагрузочное тестирование, Chaos Engineering);
  • Опыт в разработке планов аварийного восстановления (DRP).