SRE/Site Reliability Engineer – Monitoring & Observability (мониторинг и наблюдаемость)

Дата размещения вакансии: 29.10.2025

Работодатель: Интернет-энциклопедия РУВИКИ

Уровень зарплаты:

з/п не указана

Город:

Москва
Ленинградский проспект 15с14

Требуемый опыт работы:

Более 6 лет

Рувики - новая интернет-энциклопедия.

Наш продукт – Онлайн-энциклопедия, предоставляющая доступ к миллионам статей, изображений и видеороликов по самым различным темам - от истории и науки до искусства и технологий.

На текущий момент мы усиливаем нашу команду и ищем Senior SRE – Monitoring & Observability (мониторинг и наблюдаемость)

Задачи:

Проведение аудита текущих систем мониторинга: оценка покрытия, точности алертов, производительности и архитектурных ограничений;
Разработка и внедрение комплексной стратегии наблюдаемости (Observability Strategy), охватывающей метрики, логи, трассировку и бизнес-показатели;
Модернизация существующей системы мониторинга: переход на автоматическое обнаружение сервисов (service discovery), устранение ручных конфигураций и технического долга;
Создание дашбордов для отслеживания пользовательского опыта: время загрузки страниц по регионам, успешность поиска, качество мобильного опыта;
Мониторинг системы правок в реальном времени: отслеживание частоты правок, обнаружение вандализма, производительность систем модерации;
Настройка алертинга для критических компонентов: падение доступности языковых версий, проблемы с репликацией данных между дата-центрами;
Миграция мониторинговой инфраструктуры на платформу Proto-Observability (внутренняя/корпоративная система) — проектирование, интеграция, валидация;
Настройка базовых дашбордов, алерт-правил и уведомлений в Proto-Observability для ключевых сервисов и инфраструктурных компонентов;
Определение и документирование ключевых индикаторов надежности (SLI), целевых уровней обслуживания (SLO) и error budget для критически важных систем;
Мониторинг производительности CDN и кэширования: hit ratio Varnish, эффективность сжатия, задержки edge-серверов;
Анализ трафика и нагрузки: выявление ботов, DDoS-атак, аномальных паттернов использования;
Участие в дежурствах (OnCall): оперативное реагирование на инциденты, анализ ложных/пропущенных алертов, улучшение сигналов и снижение шума.

Требования:

Практический опыт проектирования и эксплуатации систем мониторинга на базе Prometheus, Grafana и Alertmanager (включая правила алертинга, recording rules, federation);
Опыт работы с логовыми системами: ELK или OpenSearch (ингест, парсинг, индексация, ретеншн, поиск);
Знание и применение распределённой трассировки: опыт с Jaeger, Zipkin или аналогами (инструментация, анализ latency, выявление узких мест);
Практический опыт мониторинга CDN и edge-инфраструктуры: анализ hit/miss ratios, geographic latency, bandwidth utilization;
Знание специфики мониторинга поисковых систем: индексация, relevance scoring, query performance в Elasticsearch/CirrusSearch;
Опыт анализа пользовательского поведения через метрики: bounce rate, edit success rate, mobile vs desktop usage patterns;
Понимание принципов мониторинга систем контроля версий и совместного редактирования в реальном времени;
Понимание принципов SRE: умение формулировать SLI/SLO, рассчитывать error budget и использовать их для принятия решений о релизах и стабильности;
Опыт участия в OnCall-дежурствах: способность быстро диагностировать инциденты с помощью данных наблюдаемости и координировать действия команды;
Желательно: практический опыт работы с платформой Proto-Observability (или аналогичной внутренней системой мониторинга) — будет значительным преимуществом;
Навыки создания алертов для обнаружения контент-специфичных проблем: спам, вандализм, нарушения авторских прав;
Готовность к регулярным дежурствам и работе в условиях высокой ответственности за стабильность production-среды;
Умение читать код на PHP и вносить оперативные изменения;
Навыки автоматизации и интеграции: умение писать скрипты (Python/Bash) и использовать API для настройки мониторинга и алертинга в масштабе;
Сильные навыки troubleshooting: умение быстро диагностировать проблемы производительности, блокировки, проблемы репликации под давлением времени.

Условия:

Уровень дохода обсуждается с финальным кандидатом по итогам собеседования.
Интересные задачи, крутые кейсы, возможность выйти на новый профессиональный уровень.
100% «белая» заработная плата, официальное трудоустройство по ТК РФ с первого дня.
Полная занятость, удаленный или гибридный формат работы в рамках РФ.
Пятидневная рабочая неделя, с пн-пт.
Дружный и неравнодушный коллектив профессионалов.
Программа ДМС после успешного прохождения испытательного срока.

Откликнуться

SRE/Site Reliability Engineer – Monitoring & Observability (мониторинг и наблюдаемость)

Похожие вакансии: Москва