SRE-специалист (Телеком)

Дата размещения вакансии: 02.02.2026
Работодатель: YADRO
Уровень зарплаты:
з/п не указана
Город:
Москва
Рочдельская улица 15с1
Требуемый опыт работы:
От 3 до 6 лет

Команда занимается развитием и поддержкой инфраструктуры продукта и одним из важных направлений является обеспечение надежности, производительности и отказоустойчивости компонентов продукта. Для этих целей в продукт были внедрены средства мониторинга, сбора логов и трейсов, а также визуализация и алертинг, которые позволяют отслеживать внутреннее состояние компонентов продукта и сигнализизировать в случае возникновения аномальных ситуаций. В данном направлении команда непосредственно занимается деплоем, оптимизацией компонентов observability, созданием дашбордов, алертов, построением отказоустойчивой инфраструктуры в области observability.

Чем предстоит заниматься:

  • Повышать надежность, наблюдаемость компонентов продукта;
  • Автоматизация работ по развертыванию и обновлению компонентов, связанных с наблюдаемостью системы;
  • Проектировать, внедрять и поддерживать метрики, alerts, dashboards в актуальном состоянии;
  • Проектировать и внедрять отказоустойчивую архитектуру компонентов продукта;
  • Взаимодействовать с командой разработчиков, участвовать в процессах ревью продуктовых требований.

Что мы требуем от будущего члена команды:

  • Опыт работы с операционной системой Linux на уровне администратора;
  • Опыт работы с системами мониторинга Prometheus/VictoriaMetrics, визуализации данных с помощью Grafana;
  • Опыт работы с системами сбора и хранения логов/трейсов;
  • Опыт работы с Ansible;
  • Знание одного или нескольких скриптовых языков Python/Bash;
  • Понимание принципов построения отказоустойчивых систем.

Будет плюсом:

  • Опыт работы с базой данных Clickhouse;
  • Опыт работы с OpenTelemetry Collector.