з/п не указана
Омск
От 3 до 6 лет
Чем предстоит заниматься:
- Планировать работу смены мониторинга (графики, подмена, распределение зон ответственности по системам)
- Контролировать соблюдение регламентов обработки алертов и инцидентов
- Проводить регулярные 1‑1 с сотрудниками сектора, оценивать их эффективность, формировать планы развития
- Организовывать настройку и актуализацию правил мониторинга (вместе с инженерами 2‑й линии/архитекторами)
- Анализировать метрики сектора (время обнаружения, время первичной реакции, % ложных алертов, % инцидентов, правильно эскалированных) и инициировать улучшения)
- Участвовать в расследовании крупных инцидентов.
- Обеспечивать onboarding и первичное обучение новых сотрудников сектора.
- Готовить отчётность для руководства ИТ о состоянии систем и работе мониторинга
Что мы ждём:
- Опыт работы с системами мониторинга (Zabbix, Prometheus+Grafana)
- Понимание метрик инфраструктуры (CPU, память, диск, сеть, БД, очереди, транзакции) и приложений (время отклика, ошибки, throughput)
- Навыки настройки правил алертинга, порогов, корреляции событий, борьбы с «шумом»
- Понимание принципов инцидент‑менеджмента и взаимодействия с командами поддержки/эксплуатации
- Умение читать и интерпретировать логи, дашборды, графики нагрузок
- Навыки описания процессов и регламентов (как обрабатывать разные типы алертов, когда и кому эскалировать)
- Умение работать с метриками и отчётностью по мониторингу (KPI, дашборды, анализ трендов)