Поклонная улица 3
О роли
Мы ищем того, кто готов решать сложные задачи, погружаться в детали, быть хранителем стабильности и надежности наших сервисов. Если ты считаешь, что совершенство — это не цель, а путь, готов предлагать новые решения и внедрять передовые технологии, мы будем рады видеть тебя в нашей команде.
Почему это важно
Наша главная цель — поддерживать такие условия, при которых пользователи могут наслаждаться стабильностью и надежностью наших сервисов, открывая для себя новые горизонты звука.
Чем будешь заниматься у нас:
- Внедрять системы мониторинга с использованием Jaeger, Prometheus, Grafana и ELK.
- Настраивать сетевые политики в istio и правила деплоя.
- Работать с облачными сервисами (IaaS, PaaS, SaaS).
- Внедрять контроль за SLO и SLA, приоритизировать задачи разработки.
- Проводить хаос-тестирования.
- Создавать процесс реагирования и восстановления после сбоев.
Технологии, с которыми будешь работать
- Kubernetes: Управление кластером, обеспечение отказоустойчивости, сетевые политики, правила деплоя сервисов, масштабируемость.
- Istio service mesh: Мониторинг SLI приложений, настройка сетевых настроек, таймауты, балансировка трафика, наблюдаемость.
- Helm/Flux: Деплой продуктовых сервисов с помощью универсального helm чарта, а control-plane и monitoring с помощью flux.
- Внутренние инструменты: Контроль SLA партнеров, бот контроля жизненного цикла инцидентов, сервис для поиска первопричины инцидентов с AI.
- GitLab CI/CD: Внедрение паттернов отказоустойчивости, управление канареечными релизами, ускорение MTTR - среднее время до восстановления.
- Jaeger: Наблюдаемость через метрики и трейсинг, поиск проблемных мест в производительности и инцидентах.
- Prometheus/Grafana: Сбор метрик, мониторинг, настройка систем мониторинга.
- ELK: Поиск аномалий в логах, анализ метрик из логов на дашбордах, внутренние экспортеры данных.
- Cloud: IaaS, PaaS, SaaS: виртуальные машины, базы данных, кэширующие серверы, брокеры сообщений.
Успех в этой роли обеспечат:
- Инцидент менеджмент - основное в работе SRE это настроить систему так, чтобы быстро реагировать на сбои, как можно быстрее их устранять и прорабатывать, исключая повторение в будущем. Внедрять автоматизацию, которая уменьшит время реакции и восстановления.
- У тебя есть опыт работы со Kubernetes - ты знаешь зачем нужны основные типы ресурсов, что такое CRD и чем отличается от CR, чем являются операторы, а еще зачем может быть нужен preStop hook с sleep.
- Идеология SRE - внедрение контроля за SLO и SLA, а также приоритизация задач разработки в связи с Error budget - это основные метрики, которые развивает и поддерживает SRE.
- Хаос тестирование - тестировать систему preprod идентичную prod по трафику и конфигурации, имитируя инциденты, которые уже были проработаны или инструментами chaos тестирования.
- Инструкции реагирования и планы восстановления - не менее важная часть в работе над инцидентами, правильная реакция на сбои уменьшает MTTR - среднее время до восстановления.
В Звуке мы предоставим тебе возможность реализовать твой профессиональный потенциал и достичь высоких результатов. Давай вместе создадим продукт, который сделает музыку еще ближе и понятнее каждому!