з/п не указана
Москва
От 1 года до 3 лет
Обязанности:
- Осуществление круглосуточного мониторинга событий в системах Prometheus/VictoriaMetrics, Zabbix;
- Создание инцидентов в таск-трекинговой системе и эскалация на ответственных специалистов;
- Взаимодействие со смежными командами по вопросам развития и оптимизации мониторинга: создание и корректировка алертов, добавление новых метрик и правил детекции инцидентов;
- Анализ логов и метрик для первичной диагностики причин инцидентов;
- Актуализация документации по правилам мониторинга и процедурам реагирования;
- Работа с Grafana: cоздание и доработка дашбордов, анализ метрик для выявления потенциальных проблем, визуализация данных для различных групп пользователей.
Что мы ждем от вас:
- Опыт работы с системами мониторинга: Prometheus/VictoriaMetrics, Zabbix;
- Навыки создания и настройки дашбордов в Grafana;
- Понимание принципов построения алертинга и настройки Alertmanager (или аналогов);
- Опыт работы в таск-трекинговых системах (Jira, Service Desk или аналогах);
- Опыт взаимодействия с другими IT-подразделениями при решении инцидентов: эскалация проблем, координация действий между командами, обеспечение своевременного реагирования на алерты;
- Понимание основных принципов мониторинга: метрики и их типы, алертинг и триггеры, процессы эскалации;
- Стрессоустойчивость и умение сохранять концентрацию в условиях высокой нагрузки;
- Готовность к обучению и развитию профессиональных навыков, коммуникабельность и умение работать в команде.
Условия:
- Отсутствие бюрократии и бессмысленных процессов;
- Работа в IT-компании, аккредитованной в Министерстве цифрового развития;
- Достойная, полностью «белая» оплата труда;
- Гибкий график работы и возможность работать полностью удаленно.