Инженер по обеспечению доступности систем (SRE) в Cloud.ru ML Space

Дата размещения вакансии: 18.11.2024
Работодатель: Cloud.ru
Уровень зарплаты:
з/п не указана
Город:
Москва
2-я Звенигородская улица 12с2
Требуемый опыт работы:
От 3 до 6 лет

Что мы ждем от кандидата:

  • Имеете опыт сопровождения критических информационных систем и инфраструктуры (чем сложнее – тем лучше) в качесвте SRE/DevOps/инженера L3;
  • Не теряетесь в критической ситуации и можете планомерно работать над поиском причины неисправности и её устранением;
  • Имеете уверенные знания и опыт администрирования Linux; -Имеете уверенные знания в области сетевых технологий;
  • Обладаете уверенными знаниями о контейнеризации и k8s; Знакомы с инструментами мониторинга и логирования (Zabbix / Prometheus, / Grafana / ELK );
  • Знакомы с принципами работы SRE, основными задачами и инструментами этой роли.

Будет плюсом:

  • Имеете опыт работы с Ansible;
  • Можете читать или писать на Python или Go;
  • Имеете базовые знания о системах контроля версий (Git) и CI/CD (Gitlab, Jenkins).
  • Имеете опыт работы с PostgreSQL, Clickhouse.

На этой позиции тебе предстоит:

  • Работать над сопровождением и повышением надёжности одного из крупнейших продуктов в области ML в РФ https://cloud.ru/ru/aicloud/mlspace
  • Участвовать в дежурствах;
  • Реагировать на инциденты, проблемы клиентов (переданные с L2/L3) и оповещения мониторинга;
  • Проводить диагностику, выявлять причины сбоев и восстанавливать работу сервиса;
  • Участвовать в разборе корневых причин инцидентов (post-mortem);
  • Работать над покрытием системы качественным мониторингом и повышением её observability;
  • Вести систематическую работу надо повышением надежности платформы: взаимодействовать с командами разработки и devops, выявлять и устранять недочёты в архитектуре, планировать и проводить учения по восстановлению после сбоев.