Москва
Цель позиции:
Курировать технологические аспекты эксплуатации и сопровождения ИТ систем, обеспечивая их надежность, безопасность и масштабируемость. Управлять командой инженеров, внедрять лучше практики.
Обязанности:
- контролировать доступность и стабильность систем:
- гарантировать uptime критичных сервисов ( SLA 99.9+);
- организовать мониторинг, алертинг и быстрое реагирование на инциденты;
- анализировать источники обращений пользователей, аргументированно выставлять приоритеты дефектов.
- развитие архитектуры и инфраструктуры:
- анализировать текущую ИТ-систему, выявлять слабые места;
- проектировать отказоустойчивые и масштабируемые решения;
- управлять миграциями, обновлениями и техническим долгом;
- внедрять культуру blameless postmortem и непрерывного улучшения;
- развивать экспертизу команды: менторинг, обучение.
Требования:
- высшее образование;
- опыт работы в SRE\DevOps\Cloud ролях от 5 лет;
- инфраструктура как код (IaC);
- CI/CD: Jenkins, GitLab CI;
- контейнеризация и оркестрация: Kubernetes\OSE, Helm, docker;
- мониторинг и логи: Dynatrace,Prometheus, ELK, Grafana.