Ведущий инженер по эксплуатации, Message Bus

Дата размещения вакансии: 19.02.2026
Работодатель: Ozon
Уровень зарплаты:
з/п не указана
Город:
Москва
Пресненская набережная 10
Требуемый опыт работы:
не требуется

Привет, это команда MessageBus!

Мы отвечаем за ряд важных инфраструктурных сервисов, строим шину данных на основе Kafka, выдерживающую миллионы rps и «прокачивающую» через себя все асинхронные коммуникации микросервисов. А еще предоставляем ее, как ресурс во внутреннем облаке и поднимаем новые маршруты «по кнопке».

Задача нашей команды, как и всей Платформы — обеспечение высокой надежности микросервисов и поддержка высокого уровня инженерной культуры в компании. А также забота о developer experience.

Наша инфраструктура

  • 200+ baremetal серверов.
  • 20кк+ event/s нагрузка на самом нагруженном кластере.
  • 200+ Gb/s трафика.
  • 7к+ топиков и сервисов.

Вы будете

  • Заниматься эксплуатацией текущих кластеров по трем окружениям DEV/STG/PROD.
  • Участвовать в автоматизации задач эксплуатации (наливка, сбор статистики, упрощение обслуживания) с помощью Ansible, Terraform и ЯП (Python/Go/bash).
  • Работать с RnD по оптимизации и улучшению показателей кластеров (наш SLA ~100мс на PRODUCE при наличии кросс-ДЦ трафика).
  • Выстраивать и отвечать за технический SLA и наблюдаемость нашего оборудования и сервиса.
  • Выступать в качестве заказчика и приемщика для собственной команды разработки платформы обмена данных.

Нам важно

  • Опыт работы от 2-3 лет.
  • Опыт эксплуатации сервисов в PROD среде.
  • Опыт работы с распределенными системами в PROD среде.
  • Практические навыки работы с Ansible на уровне написания ролей/модулей.
  • Практические навыки написания и обслуживания утилитарного кода (скрипты, небольшие системы с небольшой нагрузкой).
  • Практические навыки построения наблюдаемости и прозрачности (мониторинг, логи, алерты).

Будет плюсом

  • Опыт работы с системами N-1 в PROD (у нас 4 ЦОДа).
  • Опыт выстраивания технического SLA (от выбор индикаторов и целей до защиты).
  • Опыт программирования продуктовых систем.
  • Опыт работы с Kafka от 2 лет.
  • Опыт on-call дежурств и не относитесь к ним негативно.
  • Опыт работы и диагностики систем на baremetal.
  • Опыт диагностики и fine-tuning Linux-систем.
  • Опыт работы в платформенных командах.