Руководитель группы DevOps/SRE (Observability)

Дата размещения вакансии: 26.01.2026
Работодатель: «UZUM TECHNOLOGIES»
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

Uzum — это новая уникальная компания в Узбекистане, первая технологичная экосистема сервисов в стране. Мы развиваем сразу несколько высокотехнологичных продуктов, чтобы у миллионов жителей страны был доступ к безграничному ассортименту товаров с быстрой доставкой, а также финансовые сервисы, помогающие в решении бытовых задач и развитии бизнеса. Мы строим собственную IT-платформу, развиваем систему логистики, привлекая к сотрудничеству сотни тысяч предпринимателей.

Мы ищем опытного Team Lead для команды Observability, который возглавит развитие платформы мониторинга и наблюдаемости в высоконагруженной банковской инфраструктуре.

Что предстоит делать

  • Руководить командой инженеров Observability (найм, развитие, мотивация)
  • Определять техническую стратегию развития платформы мониторинга и логирования
  • Проектировать и развивать полный стек observability: метрики, логи, трейсинг, алертинг
  • Обеспечивать высокую доступность мониторинговых систем (VictoriaMetrics, Grafana, OpenSearch)
  • Выстраивать SLO/SLA для критичных банковских сервисов
  • Автоматизировать процессы через Infrastructure as Code (Ansible)
  • Взаимодействовать с командами разработки и эксплуатации для улучшения наблюдаемости приложений
  • Участвовать в incident management и постмортемах

Технологический стек

Инфраструктура:

  • 1000+ серверов в production
  • Несколько дата-центров
  • Микросервисная архитектура (80+ Java/Go/Python сервисов)
  • Kubernetes, Podman
  • PostgreSQL (Patroni HA), Redis (Sentinel), Kafka, ClickHouse
  • Minio S3
  • HAProxy, Nginx, Envoy для балансировки
  • Consul, Vault, Keycloak
  • Ansible, Terraform для IaC
  • GitLab CI/CD

Метрики:

  • VictoriaMetrics Cluster
  • Grafana и Grafana on-call
  • Exporters: node, postgres, redis, kafka, blackbox, jmx, wal-g etc

Логи:

  • OpenSearch cluster
  • Fluent Bit для поставки логов

Трейсинг и ошибки:

  • Sentry для error tracking
  • Jaeger для distributed tracing

Что ожидаем от кандидата

  • Опыт руководства командой от 2+ лет
  • Глубокие знания мониторинга метрик (Prometheus/VictoriaMetrics) и логов (ELK/OpenSearch)
  • Опыт построения observability в distributed systems
  • Понимание SRE практик (SLI/SLO/SLA, error budgets)
  • Опыт с Infrastructure as Code (Ansible/Terraform)
  • Опыт работы с HA и Multi-DC системами

Будет плюсом

  • Опыт в финтехе или банковской сфере
  • Знание ClickHouse для аналитики метрик
  • Опыт с трейсингом (Jaeger, Tempo, OpenTelemetry)
  • Опыт оптимизации производительности БД (PostgreSQL, Redis)

Условия:

  • Официальное трудоустройство по ТК Узбекистана
  • Конкурентная заработная плата
  • Дисконт-программы от компаний-партнеров
  • Мы являемся резидентом IT-парка, наши специалисты могут получить IT-визу, которая приравнивается к ВНЖ
  • Отсутствие дресс-кода и бюрократии
  • Культура, способствующая росту и развитию
  • Формат работы — удаленный