Старший инженер мониторинга

Дата размещения вакансии: 01.06.2026
Работодатель: РТК-СОФТ
Уровень зарплаты:
з/п не указана
Город:
Москва
Северный административный округ, Хорошёвский район
Требуемый опыт работы:
От 1 года до 3 лет

Мы занимаемся разработкой и сопровождением высоконагруженных информационных систем. Объединяем инновации, современные технологии и экспертов для создания масштабных технологических решений для государственного сектора и крупного бизнеса.

Наши решения позволяют работать с большими объёмами данных, быстро получать информацию, автоматизировать принятие управленческих решений и осуществлять опережающее управление на основе данных.

Ищем Старшего инженера мониторинга в отдел эксплуатации и сопровождения витрин данных

Задачи:

  • Диагностика и разрешение производственных инцидентов.
  • Оптимизация производительности систем.
  • Администрирование баз данных (PostgreSQL, ClickHouse).
  • Разработка и поддержка runbooks и документации.
  • Наставничество junior engineers.
  • Написание root cause analysis (RCA) инцидентов.

Что мы ждем от кандидата:

  • Опыт работы на позиции старшего инженера / SRE-инженера от 1 года или на позиции дежурного инженера 2 и более лет.
  • Готовность к коммуникациям в MAX (это наш корпоративный мессенджер).
  • Готовность к участию в on-call ротации дежурств.

Технические навыки, которые нам важны:

1. Внутреннее устройство Linux/Unix:

  • TCP/IP сеть (понимание как работает SYN flood, что такое TIME_WAIT).
  • Управление процессами (zombie processes, D-state и т.д.).
  • I/O подсистема (iostat, page cache, buffer management).
  • Файловые системы и параметры монтирования.
  • Tuning параметров ядра (sysctl).

2. Администрирование баз данных:

  • PostgreSQL: Patroni, replication, troubleshooting.
  • EXPLAIN ANALYZE, оптимизация запросов.
  • Анализ блокировок, разрешение deadlock'ов.
  • WAL management, backup/restore.
  • ClickHouse: дизайн схемы, TTL, merges.
  • System-таблицы для диагностики.
  • Анализ медленных запросов.

3. Observability Stack:

  • VictoriaMetrics + PromQL (написание queries для диагностики).
  • Дизайн Grafana дашбордов.
  • Логирование (OpenSearch, Fluent Bit).
  • Distributed tracing (опционально, но желательно: Jaeger).

Будет плюсом:

- Понимание Infrastructure as Code.

- Ansible playbooks для процедур восстановления.

- Опыт управление инцидентами (Написание RCA (clear, actionable), Root cause vs symptom analysis, Blameless postmortems, Оценка уровня серьезности).

Что предлагаем:

  • Формат работы: на время испытательного срока - офис (полный день), после - гибридный формат (3 дня офис, 2 дня удалённо).
  • Комфортное рабочее место в современном и стильном офисе в пешей доступности от метро Зорге.
  • ДМС со стоматологией после испытательного срока.
  • Компенсация спорта.
  • Корпоративный университет и библиотеки.
  • Скидки на домашний интернет и мобильную связь «Т2».
  • Конкурентный уровень дохода (обсуждается на этапе собеседования).