Senior SRE/Site Reliability Engineer – Monitoring & Observability (мониторинг и наблюдаемость)

Дата размещения вакансии: 08.10.2025
Работодатель: Интернет-энциклопедия РУВИКИ
Уровень зарплаты:
з/п не указана
Город:
Москва
Ленинградский проспект 15с14
Требуемый опыт работы:
Более 6 лет

Рувики - новая интернет-энциклопедия.

Наш продукт – Онлайн-энциклопедия, предоставляющая доступ к миллионам статей, изображений и видеороликов по самым различным темам - от истории и науки до искусства и технологий.

На текущий момент мы усиливаем нашу команду и ищем Senior SRE – Monitoring & Observability (мониторинг и наблюдаемость)

Задачи:

  • Проведение аудита текущих систем мониторинга: оценка покрытия, точности алертов, производительности и архитектурных ограничений;
  • Разработка и внедрение комплексной стратегии наблюдаемости (Observability Strategy), охватывающей метрики, логи, трассировку и бизнес-показатели;
  • Модернизация существующей системы мониторинга: переход на автоматическое обнаружение сервисов (service discovery), устранение ручных конфигураций и технического долга;
  • Создание дашбордов для отслеживания пользовательского опыта: время загрузки страниц по регионам, успешность поиска, качество мобильного опыта;
  • Мониторинг системы правок в реальном времени: отслеживание частоты правок, обнаружение вандализма, производительность систем модерации;
  • Настройка алертинга для критических компонентов: падение доступности языковых версий, проблемы с репликацией данных между дата-центрами;
  • Миграция мониторинговой инфраструктуры на платформу Proto-Observability (внутренняя/корпоративная система) — проектирование, интеграция, валидация;
  • Настройка базовых дашбордов, алерт-правил и уведомлений в Proto-Observability для ключевых сервисов и инфраструктурных компонентов;
  • Определение и документирование ключевых индикаторов надежности (SLI), целевых уровней обслуживания (SLO) и error budget для критически важных систем;
  • Мониторинг производительности CDN и кэширования: hit ratio Varnish, эффективность сжатия, задержки edge-серверов;
  • Анализ трафика и нагрузки: выявление ботов, DDoS-атак, аномальных паттернов использования;
  • Участие в дежурствах (OnCall): оперативное реагирование на инциденты, анализ ложных/пропущенных алертов, улучшение сигналов и снижение шума.

Требования:

  • Практический опыт проектирования и эксплуатации систем мониторинга на базе Prometheus, Grafana и Alertmanager (включая правила алертинга, recording rules, federation);
  • Опыт работы с логовыми системами: ELK или OpenSearch (ингест, парсинг, индексация, ретеншн, поиск);
  • Знание и применение распределённой трассировки: опыт с Jaeger, Zipkin или аналогами (инструментация, анализ latency, выявление узких мест);
  • Практический опыт мониторинга CDN и edge-инфраструктуры: анализ hit/miss ratios, geographic latency, bandwidth utilization;
  • Знание специфики мониторинга поисковых систем: индексация, relevance scoring, query performance в Elasticsearch/CirrusSearch;
  • Опыт анализа пользовательского поведения через метрики: bounce rate, edit success rate, mobile vs desktop usage patterns;
  • Понимание принципов мониторинга систем контроля версий и совместного редактирования в реальном времени;
  • Понимание принципов SRE: умение формулировать SLI/SLO, рассчитывать error budget и использовать их для принятия решений о релизах и стабильности;
  • Опыт участия в OnCall-дежурствах: способность быстро диагностировать инциденты с помощью данных наблюдаемости и координировать действия команды;
  • Желательно: практический опыт работы с платформой Proto-Observability (или аналогичной внутренней системой мониторинга) — будет значительным преимуществом;
  • Навыки создания алертов для обнаружения контент-специфичных проблем: спам, вандализм, нарушения авторских прав;
  • Готовность к регулярным дежурствам и работе в условиях высокой ответственности за стабильность production-среды;
  • Умение читать код на PHP и вносить оперативные изменения;
  • Навыки автоматизации и интеграции: умение писать скрипты (Python/Bash) и использовать API для настройки мониторинга и алертинга в масштабе;
  • Сильные навыки troubleshooting: умение быстро диагностировать проблемы производительности, блокировки, проблемы репликации под давлением времени.

Условия:

  • Уровень дохода обсуждается с финальным кандидатом по итогам собеседования.
  • Интересные задачи, крутые кейсы, возможность выйти на новый профессиональный уровень.
  • 100% «белая» заработная плата, официальное трудоустройство по ТК РФ с первого дня.
  • Полная занятость, удаленный или гибридный формат работы в рамках РФ.
  • Пятидневная рабочая неделя, с пн-пт.
  • Дружный и неравнодушный коллектив профессионалов.
  • Программа ДМС после успешного прохождения испытательного срока.