Москва
Поклонная улица 3
Поклонная улица 3
О роли
Мы ищем инженера мониторинга, который станет ключевым звеном в обеспечении стабильности и надежности наших сервисов. Если ты готов погружаться в детали, предлагать инновационные решения и внедрять передовые технологии, мы будем рады видеть тебя в нашей команде.
Почему это важно
Наша цель — создать условия, при которых пользователи могут наслаждаться бесперебойной работой наших сервисов, а команды — эффективно решать задачи, опираясь на точные данные и надежные системы мониторинга.
Чем будешь заниматься у нас:
- Разрабатывать и оптимизировать архитектуру систем мониторинга, совершенствуя подходы, инструменты и методологии.
- Обеспечивать стабильную работу систем мониторинга: устранять сбои, обновлять, настраивать и тестировать.
- Реализовывать и сопровождать метрики, алертинг и визуализацию: настраивать триггеры, создавать дашборды для команд разработки, тестирования и поддержки.
- Автоматизировать процессы управления мониторингом через скрипты, утилиты и кастомные экспортеры.
- Готовить техническую документацию, инструкции и описания метрик.
- Выполнять задачи в рамках Agile-подхода.
- Развивать экспертизу в смежных с OPS областях, интегрируя новые решения.
Технологии, с которыми будешь работать:
- Мониторинг: Grafana + OnCall, Prometheus (HA, Thanos), AlertManager + Karma, BlackBox + UptimeKuma.
- Логи и трассировка: ELK stack (OpenDistro), Jaeger, Loki (преимущество).
- Оркестрация и управление: AirFlow, N8N, Kafka.
- Базы данных: PostgreSQL.
- Документирование: Jira, Confluence.
Успех в этой роли обеспечат:
- Опыт работы с системами мониторинга от 3 лет, понимание принципов построения As-a-Service.
- Экспертиза в Prometheus и TSDB: знание архитектуры, конфигурирования, интеграций (Thanos, VictoriaMetrics), написание кастомных экспортеров.
- Умение работать с системами сбора, анализа и визуализации логов (Elasticsearch, Logstash, Fluentd, Rsyslog, Graylog, InfluxDB, Grafana, Kibana), написание EQL/KQL запросов.
- Навыки администрирования и автоматизации: использование профильных команд для ОС и приложений, написание sh-скриптов, базовые знания Git и CI/CD.
- Понимание ООП, функционального программирования, чтение и анализ кода на Python.
- Знание микросервисной инфраструктуры, устройства и кластеризации.