Москва
Мы ищем опытного и мотивированного тимлида, который возглавит команду администраторов (Infrastructure Engineers), отвечающую за надежность, производительность и развитие критически важных сервисов HR-платформы Сбера. Вы будете не только техническим лидером, но и наставником для команды, ответственным за качество процессов и стратегическое развитие инфраструктуры.
Обязанности
- Формирование, развитие и мотивация команды администраторов (Infrastructure Engineers).
- Постановка целей (OKR), планирование и распределение задач, проведение регулярных 1:1 и performance review.
- Постоянное улучшение процессов сопровождения, мониторинга и автоматизации.
- Траблшутинг сложных проблем в распределенных высоконагруженных системах.
- Анализ инцидентов и разработка рекомендаций по повышению отказоустойчивости, масштабируемости и производительности HR-платформы.
- Развитие проактивного и реактивного мониторинга, создание эффективных алертов на основе SLO.
- Участие в проектировании архитектуры новых сервисов с учетом требований надежности и эксплуатации.
- Участие в разработке и внедрение стратегии надежности и производительности ключевых сервисов.
- Тесная работа с командами разработки, тестирования и продукта на протяжении всего жизненного цикла сервиса.
- Взаимодействие с командами поддержки и сопровождения HR-платформы (SRE, DBA, Devops)
- Взаимодействие с командами сопровождения инфраструктуры банка
Требования
- Опыт управления командой Dev/DevOps/SRE/Infrastructure от 3 лет (постановка задач, мотивация, развитие, найм).
- Глубокий практический опыт (от 5 лет) в роли Infrastructure/DevOps-инженера или SRE.
- Глубокое понимание и практическое применение философии и практик SRE (Site Reliability Engineering).
- Экспертные навыки траблшутинга в сложных распределенных системах.
- Опыт построения, масштабирования и поддержки высоконагруженных отказоустойчивых систем.
- Уверенное владение основными инструментами автоматизации: Ansible, Terraform.
- Глубокие знания в области контейнеризации и оркестрации: Docker, Kubernetes (Openshift).
- Уверенное знание одного из языков для автоматизации: Python, Go, Ruby или Bash.
- Опыт работы с системами мониторинга и визуализации: Prometheus, Grafana, Zabbix, Dynatrace.
Технический стек:
- Linux: RHEL
- Docker, Kubernetes, Openshift (CRI, CNI, CSI)
- Nginx, envoy, openresty
- Kafka
- PostgreSQL, Redis, Clickhouse
- Vault, Consul SD
- ELK, fluentd, fluentbit
- Prometheus, Grafana, Zabbix, Dynatrace
- Jenkins, Gitlab (Drone, Gitea, Bitbucket)
- Python, ruby, bash, groovy, Go
- Ansible, terraform
Условия
- фис в Москве (Кутузовский проспект);
- график: гибрид после ИС;
- отсутствие дресс-кода;
- ДМС;
- крупнейшее DS&AI community;
- более 1200+ DS банка, включая: регулярный обмен знаниями, опытом и лучшими практиками интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира; регулярные внутренние митапы.