Москва
Ленинградский проспект 15с14
Ленинградский проспект 15с14
Рувики - новая интернет-энциклопедия.
Наш продукт – Онлайн-энциклопедия, предоставляющая доступ к миллионам статей, изображений и видеороликов по самым различным темам - от истории и науки до искусства и технологий.
На текущий момент мы усиливаем нашу команду и ищем Senior SRE – Monitoring & Observability (мониторинг и наблюдаемость)
Задачи:
- Проведение аудита текущих систем мониторинга: оценка покрытия, точности алертов, производительности и архитектурных ограничений;
- Разработка и внедрение комплексной стратегии наблюдаемости (Observability Strategy), охватывающей метрики, логи, трассировку и бизнес-показатели;
- Модернизация существующей системы мониторинга: переход на автоматическое обнаружение сервисов (service discovery), устранение ручных конфигураций и технического долга;
- Создание дашбордов для отслеживания пользовательского опыта: время загрузки страниц по регионам, успешность поиска, качество мобильного опыта;
- Мониторинг системы правок в реальном времени: отслеживание частоты правок, обнаружение вандализма, производительность систем модерации;
- Настройка алертинга для критических компонентов: падение доступности языковых версий, проблемы с репликацией данных между дата-центрами;
- Миграция мониторинговой инфраструктуры на платформу Proto-Observability (внутренняя/корпоративная система) — проектирование, интеграция, валидация;
- Настройка базовых дашбордов, алерт-правил и уведомлений в Proto-Observability для ключевых сервисов и инфраструктурных компонентов;
- Определение и документирование ключевых индикаторов надежности (SLI), целевых уровней обслуживания (SLO) и error budget для критически важных систем;
- Мониторинг производительности CDN и кэширования: hit ratio Varnish, эффективность сжатия, задержки edge-серверов;
- Анализ трафика и нагрузки: выявление ботов, DDoS-атак, аномальных паттернов использования;
- Участие в дежурствах (OnCall): оперативное реагирование на инциденты, анализ ложных/пропущенных алертов, улучшение сигналов и снижение шума.
Требования:
- Практический опыт проектирования и эксплуатации систем мониторинга на базе Prometheus, Grafana и Alertmanager (включая правила алертинга, recording rules, federation);
- Опыт работы с логовыми системами: ELK или OpenSearch (ингест, парсинг, индексация, ретеншн, поиск);
- Знание и применение распределённой трассировки: опыт с Jaeger, Zipkin или аналогами (инструментация, анализ latency, выявление узких мест);
- Практический опыт мониторинга CDN и edge-инфраструктуры: анализ hit/miss ratios, geographic latency, bandwidth utilization;
- Знание специфики мониторинга поисковых систем: индексация, relevance scoring, query performance в Elasticsearch/CirrusSearch;
- Опыт анализа пользовательского поведения через метрики: bounce rate, edit success rate, mobile vs desktop usage patterns;
- Понимание принципов мониторинга систем контроля версий и совместного редактирования в реальном времени;
- Понимание принципов SRE: умение формулировать SLI/SLO, рассчитывать error budget и использовать их для принятия решений о релизах и стабильности;
- Опыт участия в OnCall-дежурствах: способность быстро диагностировать инциденты с помощью данных наблюдаемости и координировать действия команды;
- Желательно: практический опыт работы с платформой Proto-Observability (или аналогичной внутренней системой мониторинга) — будет значительным преимуществом;
- Навыки создания алертов для обнаружения контент-специфичных проблем: спам, вандализм, нарушения авторских прав;
- Готовность к регулярным дежурствам и работе в условиях высокой ответственности за стабильность production-среды;
- Умение читать код на PHP и вносить оперативные изменения;
- Навыки автоматизации и интеграции: умение писать скрипты (Python/Bash) и использовать API для настройки мониторинга и алертинга в масштабе;
- Сильные навыки troubleshooting: умение быстро диагностировать проблемы производительности, блокировки, проблемы репликации под давлением времени.
Условия:
- Уровень дохода обсуждается с финальным кандидатом по итогам собеседования.
- Интересные задачи, крутые кейсы, возможность выйти на новый профессиональный уровень.
- 100% «белая» заработная плата, официальное трудоустройство по ТК РФ с первого дня.
- Полная занятость, удаленный или гибридный формат работы в рамках РФ.
- Пятидневная рабочая неделя, с пн-пт.
- Дружный и неравнодушный коллектив профессионалов.
- Программа ДМС после успешного прохождения испытательного срока.