Москва
2-я Звенигородская улица 12с2
2-я Звенигородская улица 12с2
Что мы ждем от кандидата:
- Имеете опыт сопровождения критических информационных систем и инфраструктуры (чем сложнее – тем лучше) в качесвте SRE/DevOps/инженера L3;
- Не теряетесь в критической ситуации и можете планомерно работать над поиском причины неисправности и её устранением;
- Имеете уверенные знания и опыт администрирования Linux; -Имеете уверенные знания в области сетевых технологий;
- Обладаете уверенными знаниями о контейнеризации и k8s; Знакомы с инструментами мониторинга и логирования (Zabbix / Prometheus, / Grafana / ELK );
- Знакомы с принципами работы SRE, основными задачами и инструментами этой роли.
Будет плюсом:
- Имеете опыт работы с Ansible;
- Можете читать или писать на Python или Go;
- Имеете базовые знания о системах контроля версий (Git) и CI/CD (Gitlab, Jenkins).
- Имеете опыт работы с PostgreSQL, Clickhouse.
На этой позиции тебе предстоит:
- Работать над сопровождением и повышением надёжности одного из крупнейших продуктов в области ML в РФ https://cloud.ru/ru/aicloud/mlspace
- Участвовать в дежурствах;
- Реагировать на инциденты, проблемы клиентов (переданные с L2/L3) и оповещения мониторинга;
- Проводить диагностику, выявлять причины сбоев и восстанавливать работу сервиса;
- Участвовать в разборе корневых причин инцидентов (post-mortem);
- Работать над покрытием системы качественным мониторингом и повышением её observability;
- Вести систематическую работу надо повышением надежности платформы: взаимодействовать с командами разработки и devops, выявлять и устранять недочёты в архитектуре, планировать и проводить учения по восстановлению после сбоев.