Ищем SRE-инженеров для работы над инфраструктурой, обеспечения бесперебойной работы сервисов, наблюдения за производительностью сервисов, масштабируемостью и обеспечения всеми необходимыми ресурсами.
Задачи:
-
Оптимизация имеющихся систем, уменьшение нагрузки на сопровождение и обслуживание систем за счет автоматизации.
-
Изучение имеющихся систем и поддержание актуальных знаний по ним, взаимодействии подсистем, механизмов влияния подсистем на сервис в целом.
-
Активный и проактивный поиск возможных проблем в архитектуре систем и их устранение.
-
Участие в жизни проекта на всех его этапах — дизайн, разработка, внедрение, обновление, улучшение, поддержка и т. д.
-
Обслуживание работающих сервисов, включая мониторинг как системных, так и бизнес метрик (все показатели здоровья систем).
-
Автоматизация и улучшение всех процессов, связанных с обслуживанием систем, усилением их отказоустойчивости, масштабированием и т. д.
-
Участие в устранении и расследовании причин сбоев.
Требования:
-
Опыт в построении мониторинга на основе золотых сигналов SRE
-
Опыт в разработке и реализации моделей восстановления после сбоев (Disaster Recovery), включая идентификацию критически важных компонентов системы и создание эффективных планов восстановления.
-
Опыт работы с асинхронными многокомпонентными системами.
-
Опыт работы со следующим стэком: helm, terragrun\terraform, kubernetes, argocd
-
Опыт работы с Java приложениями
-
Понимание принципов архитектуры многокомпонентных систем и умение применять эти знания на практике (балансировка нагрузки, обеспечение отказоустойчивости и т.д.)
Какие опыт и знания ищем?
-
Опыт работы лидом SRE от 2 лет.
-
Опыт работы системным администратором / devops'ом / разработчиком в бэкграунде.
-
Практический опыт написания и поддержки документации.
-
Опыт настройки готовых инструментов мониторинга (например, grafana) и опыт их проектирования для разработки своих.
-
Опыт регулярного общения с разработкой, инфраструктурой, клиентским саппортом, бизнесом.
Условия:
- Удаленная работа
- 40 часов в неделю