Главный инженер отвечает за развитие и эксплуатацию централизованных систем мониторинга и логирования, наблюдаемость (observability) инфраструктуры и ключевых сервисов компании, снижение времени обнаружения и устранения инцидентов и повышение устойчивости ИТ‑ландшафта.
Обязанности
- Развитие и поддержка системы мониторинга на базе Zabbix: шаблоны, триггеры, LLD, сценарии эскалаций, интеграции с тикет‑системами и мессенджерами.
- Проектирование и сопровождение дашбордов в Grafana для инфраструктурных и бизнес‑метрик, настройка алертинга.
- Организация сбора телеметрии (метрики, логи, трассировки) от инфраструктурных и прикладных систем, участие во внедрении OpenTelemetry и подходов observability.
- Эксплуатация Linux‑инфраструктуры в зоне ответственности: серверы мониторинга и логирования, MX‑серверы, NGINX/HAProxy, сопутствующие сервисы.
- Автоматизация регламентных задач с использованием Ansible (плейбуки, роли, политики конфигурации) и скриптинга (Bash/Python).
- Развитие и сопровождение систем централизованного логирования (OpenSearch/ELK или аналогичный стек): пайплайны логов, индексы, ретеншн, аналитические дашборды.
- Участие в расследовании и post‑mortem разборе инцидентов, подготовка отчётности по доступности и производительности сервисов, KPI и операционным метрикам.
- Взаимодействие с DevOps и командами разработки по вопросам мониторинга, логирования, требований к метрикам и готовности сервисов к эксплуатации.
Чем предстоит заниматься:
- Поддерживать работоспособность и актуальность Zabbix/Grafana/лог‑стека и инфраструктурных сервисов на Linux.
- Подключать новые системы и сервисы к мониторингу и логированию, описывать требования к метрикам и алертам.
- Тюнинговать алерты и дашборды так, чтобы дежурные видели важное вовремя, без шума.
- Автоматизировать рутину Ansible‑плейбуками и скриптами.
- Участвовать в эскалациях, помогать быстро находить и устранять причины инцидентов.
Требования
Образование и опыт:
- Высшее техническое образование.
- От 3 лет опыта в эксплуатации ИТ‑систем: системный администратор Linux/инженер мониторинга/SRE/DevOps‑инженер.
Технологические навыки:
- Уверенный Linux (семейства RHEL/Debian): установка, конфигурация, обновления, systemd, журналирование, базовая безопасность и troubleshooting.
- Продвинутый Zabbix: шаблоны, LLD, триггеры, действия, эскалации, интеграции; понимание архитектуры Zabbix‑сервера/прокси/агентов.
- Опыт работы с Grafana: проектирование дашбордов, работа с источниками данных, настройка алертинга.
- Опыт эксплуатации веб‑серверов и балансировщиков (NGINX, HAProxy): публикация сервисов, TLS, health‑checks, схемы отказоустойчивости.
- Понимание подходов observability: метрики, логи, трассировки; опыт или готовность работать с OpenTelemetry.
- Опыт работы с системами логирования (OpenSearch/ELK или аналог): сбор логов, индексы, ретеншн, поиск, базовая визуализация.
- Автоматизация с помощью Ansible (плейбуки, роли, инвентори) и скриптов (Bash, желательно Python).
- Базовые знания БД (PostgreSQL, MySQL/MariaDB) в части эксплуатации сервисов мониторинга/логирования.
Будет плюсом:
- Опыт построения или серьёзного развития monitoring/logging‑стека «с нуля» или в рамках крупного проекта.
- Опыт работы в связке с DevOps/разработкой, участие в CICD‑процессах, понимание SLI/SLO/SLA.
- Опыт работы с Prometheus, VictoriaMetrics или аналогичными системами метрик.
Личные качества (желательно):
- Системное мышление и ориентация на надёжность: привычка мыслить через доступность, MTTR и устойчивость, а не только через «починить прямо сейчас».
- Проактивность: стремление не только тушить инциденты, но и устранять их причины, улучшать мониторинг, логирование и автоматизацию.
- Умение объяснять сложные технические вещи простым языком для Dev, эксплуатации и бизнеса.
- Аккуратность при работе с прод‑окружениями, уважение к регламентам изменений и документации.
Условия
-Гибридный формат работы (офис + удаленная работа);
-Офис Москва Сити (м. Деловой центр);
-выгодные ипотечные льготные условия кредитования;
-бесплатная подписка СберПрайм+;
-скидки на продукты компаний-партнеров: Okko, Сбер Маркет, Delivery Club, -Самокат, Ситимобил, Сбер Еаптека и другие;
-ДМС с первого дня и льготное страхование для близких;
-корпоративная пенсионная программа;
-детский отдых и подарки за счет Компании;
-обучение за счет Компании: онлайн курсы в Виртуальной школе Сбера и -неограниченный доступ к библиотеке, обучение в Корпоративном университете, -тренинги, митапы и возможность получить новую квалификацию;
-реферальная программа для сотрудников: можно пригласить в команду -знакомых профессионалов и получить вознаграждение до 100 тыс. рублей;
-скидки на отдых в лучшем в мире курортном комплексе «Mriya Resort & SPA» в Ялте.