Инженер по обеспечению доступности систем (SRE) в Evolution

Дата размещения вакансии: 23.10.2024
Работодатель: Cloud.ru
Уровень зарплаты:
з/п не указана
Город:
Москва
2-я Звенигородская улица 12с2
Требуемый опыт работы:
От 3 до 6 лет

Что мы ждем от кандидата:

  • Опыт сопровождения критических информационных систем и инфраструктуры (чем сложнее – тем лучше) в качестве SRE/DevOps/инженера L3;
  • Уверенные знания и опыт администрирования Linux;
  • Увереныые знания в области сетевых технологий;
  • Опыт работы с виртуализацией (libvirt/qemu/..) и контейнеризацией (docker...);
  • Хорошо ориентируетесь в сборе метрик, обработке логов и настройке алертинга, желательный стэк: Prometheus, Grafana, ELK/EFK;
  • Знакомы с принципами работы SRE, основными задачами и инструментами этой роли.

Будет плюсом:

  • Опыт проектирования высоко-нагруженных, масштабируемых и отказоустойчивых сервисов (монолитные или микросервисные);
  • Знаниями в OpenStack и успешный опыт деплоя и эксплуатации платформы;
  • Знания и умения использовать Terraform и Ansible;
  • Опыт работы с K8s;
  • Опыт работы с openvswitch.

На этой позиции тебе предстоит:

  • Работать над сопровождением и повышением надёжности облачной платормы Evolution (https://cloud.ru/ru/evolution)*
  • Отвечать за доступность IaaS-платформы и развернутых на ней приложений, оперативно устранять инфраструктурные инциденты;
  • Быть активным участником процессов инцидент и проблем менеджмента (включая участие в устранении аварий, стабилизации систем после дизастера и выполнения действий, запланированных в рамках постмортема);
  • Работать над покрытием системы качественным мониторингом и повышением её observability;
  • Вести систематическую работу надо повышением надежности платформы: взаимодействовать с командарми разработки и devops, выявлять и устранять недочёты в архитектуре, планировать и проводить учения по восстановлению после сбоев.