Москва
2-я Звенигородская улица 12с2
2-я Звенигородская улица 12с2
О нас
Департамент инфраструктуры и поддержки ищет инженеров поддержки и 3-го уровня для сопровождения суперкомпьютерной платформы машинного обучения Cloud.ru MLSpace.
Мы ищем человека, который сможет войти в продуктовую команду, изучить продукт и технологический стек, эффективно и быстро решать инциденты и проблемы клиентов, а также работать над повышением надежности платформы.
Вам предстоит:
- Участвовать в дежурствах:
- реагировать на инциденты, проблемы клиентов (переданные с L2) и оповещения мониторинга;
- проводить диагностику, выявлять причины сбоев и восстанавливать работу сервиса.
- Участвовать в разборе корневых причин инцидентов (post-mortem);
- Формировать документацию и инструкции для инженеров поддержки 3-го и 2-го уровней;
- Вместе с инженерами SRE работать над повышением надёжности системы (мониторинг и пр.).
Вы нам подходите, если вы:
- Имеет опыт сопровождения критических информационных систем и инфраструктуры (чем сложнее – тем лучше);
- Не теряетесь в критической ситуации и можете планомерно работать над поиском причины неисправности и её устранением;
- Имеете уверенные знания и опыт администрирования Linux;
- Имеете базовые знания в области сетевых технологий;
- Обладаете знаниями о контейнеризации и k8s;
- Знакомы с инструментами мониторинга и логирования (Zabbix / Prometheus, / Grafana / ELK );
- Хотите активно учиться и развиваться.
Будет плюсом, если вы:
- Имеете опыт работы с Kubernetes;
- Можете читать или писать на Python или Go;
- Имеет опыт работы с Ansible;
- Имеет базовые знания о системах контроля версий (Git) и CI/CD (Gitlab, Jenkins).
Чем это интересно:
- Поработать в сложном крупном проекте современного направления ML/AI
- Получить или расширить знание современных инструментов и технологий (k8s, ansible, terraform, Prometheus, Grafana )
- Профессионально развиваться в области обеспечения доступности систем и стать SRE-инженером