Problem Manager

Дата размещения вакансии: 17.03.2026
Работодатель: Ингосстрах
Уровень зарплаты:
з/п не указана
Город:
Москва
Рочдельская улица 15с35
Требуемый опыт работы:
От 3 до 6 лет

Задачи:

  • Управление процессом Problem Management в соответствии с ITIL/ISO 20000, фокусируясь на предотвращении повторяющихся сбоев в сложной инфраструктуре;
  • Проведение глубокого анализа корневых причин (RCA) инцидентов, связанных с Kubernetes, облачными платформами, СУБД, сетевым оборудованием и микросервисной архитектурой;
  • Разработка и внедрение долгосрочных решений, включая автоматизацию, исправление конфигураций, оптимизацию производительности;
  • Мониторинг эффективности решений и контроль выполнения Known Errors;
  • Тесное взаимодействие с SRE, DevOps, DBA, сетевыми инженерами и разработчиками для устранения системных проблем;
  • Мониторинг инфраструктуры с использованием Prometheus, Grafana, ELK, Zabbix и других инструментов;
  • Участие в постмортемах (Post-Mortem) и выработка превентивных мер для сложных инцидентов;
  • Анализ логов, метрик, трейсов (OpenTelemetry, Jaeger) для выявления скрытых проблем;
  • Подготовка отчетов для руководства с рекомендациями по улучшению отказоустойчивости и производительности систем;
  • Наставничество для младших специалистов и коллег.

Для нас важно:

  • Уверенные знания организации инфраструктуры - Kubernetes (понимание архитектуры, troubleshooting кластеров, проблемы с Pod/Node, сетевые политики, CSI-драйверы);
  • СУБД (PostgreSQL / MySQL / MongoDB – диагностика медленных запросов, блокировок, репликации);
  • Сети (TCP/IP, DNS, HTTP/2, gRPC, BGP, проблемы с задержками, packet loss, firewall/NAT);
  • Микросервисы и message brokers (Kafka, RabbitMQ – задержки, потеря сообщений, балансировка);
  • Навыки работы с инструментами мониторинга и observability (Prometheus/ Grafana/ ELK/ ELK APM/ Zabbix);
  • Умение проводить RCA (5 Почему, Ishikawa, FTA) и работать с DORA-метриками, SLI/SLO;
  • Опыт автоматизации (Python/ Bash/ Ansible/ Terraform) для устранения типовых проблем;
  • Понимание DevOps-практик и SRE (Site Reliability Engineering).

Будет большим плюсом:

  • Экспертиза в ITIL v4\v3, сертификация (ITIL 4 Specialist/Master) будет преимуществом.

Предлагаем:

  • Оформление по ТК РФ, полностью белую заработную плату (оклад + квартальная премия);
  • График 5/2, можно выбрать: с 8:00 до 17:00, с 9:00 до 18:00, с 10:00 до 19:00;
  • Гибридный формат работы;
  • Офис находится недалеко от м.1905 года (ул.Рочдельская 15 стр.35);
  • После 3 месяцев работы базовый пакет ДМС (поликлиника); спустя 9 месяцев работы – расширенный ДМС (стоматология, имуннотерапия, ежегодная диспансеризация, лечение сложных заболеваний, плановая и экстренная помощь);

  • ДМС для родственников;

  • Подписку Добросервис (неограниченное количество консультаций у высококвалифицированных психологов);

  • Платформу дистанционного обучения IngoStudy (возможность проходить курсы для прокачки soft и hard скиллов) + внешние обучения по согласованию с руководителем;

  • Льготные страховые продукты (страхование имущества физ. лиц, автотранспорта (Каско), страхование выезжающих за рубеж, страхование ипотеки, страхование от несчастных случаев и болезней);

  • Скидки на обслуживание и ремонт автомобилей;

  • Корпоративные предложения от сети фитнес-клубов: World Class, World Class Lite и UFC GYM;

  • Активную корпоративную жизнь со спортивными секциями: бег, волейбол, йога и др.;

  • Участие в разных благотворительных и экологических акциях, форумах, марафонах.