Инженер по обеспечению доступности систем (SRE) в Cloud.ru ML Space

Дата размещения вакансии: 09.01.2025

Работодатель: Cloud.ru

Уровень зарплаты:

з/п не указана

Город:

Москва
2-я Звенигородская улица 12с2

Требуемый опыт работы:

От 3 до 6 лет

Что мы ждем от кандидата:

Имеете опыт сопровождения критических информационных систем и инфраструктуры (чем сложнее – тем лучше) в качестве SRE/DevOps/инженера L3;
Не теряетесь в критической ситуации и можете планомерно работать над поиском причины неисправности и её устранением;
Имеете уверенные знания и опыт администрирования Linux;
Имеете уверенные знания в области сетевых технологий;
Обладаете уверенными знаниями о контейнеризации и k8s;
Знакомы с инструментами мониторинга и логирования (Zabbix / Prometheus, / Grafana / ELK );
Знакомы с принципами работы SRE, основными задачами и инструментами этой роли.

Будет плюсом:

Имеете опыт работы с Ansible;
Можете читать или писать на Python или Go;
Имеете базовые знания о системах контроля версий (Git) и CI/CD (Gitlab, Jenkins).
Имеете опыт работы с PostgreSQL, Clickhouse.

На этой позиции тебе предстоит:

Работать над сопровождением и повышением надёжности одного из крупнейших продуктов в области ML в РФ https://cloud.ru/ru/aicloud/mlspace;
Участвовать в дежурствах;
Реагировать на инциденты, проблемы клиентов (переданные с L2/L3) и оповещения мониторинга;
Проводить диагностику, выявлять причины сбоев и восстанавливать работу сервиса;
Участвовать в разборе корневых причин инцидентов (post-mortem);
Работать над покрытием системы качественным мониторингом и повышением её observability;
Вести систематическую работу надо повышением надежности платформы: взаимодействовать с командами разработки и devops, выявлять и устранять недочёты в архитектуре, планировать и проводить учения по восстановлению после сбоев.

Откликнуться