Москва
2-я Звенигородская улица 12с2
2-я Звенигородская улица 12с2
Что мы ждем от кандидата:
- Опыт сопровождения критических информационных систем и инфраструктуры (чем сложнее – тем лучше) в качестве SRE/DevOps/инженера L3;
- Уверенные знания и опыт администрирования Linux;
- Увереныые знания в области сетевых технологий;
- Опыт работы с виртуализацией (libvirt/qemu/..) и контейнеризацией (docker...);
- Хорошо ориентируетесь в сборе метрик, обработке логов и настройке алертинга, желательный стэк: Prometheus, Grafana, ELK/EFK;
- Знакомы с принципами работы SRE, основными задачами и инструментами этой роли.
Будет плюсом:
- Опыт проектирования высоко-нагруженных, масштабируемых и отказоустойчивых сервисов (монолитные или микросервисные);
- Знаниями в OpenStack и успешный опыт деплоя и эксплуатации платформы;
- Знания и умения использовать Terraform и Ansible;
- Опыт работы с K8s;
- Опыт работы с openvswitch.
На этой позиции тебе предстоит:
- Работать над сопровождением и повышением надёжности облачной платормы Evolution (https://cloud.ru/ru/evolution)*
- Отвечать за доступность IaaS-платформы и развернутых на ней приложений, оперативно устранять инфраструктурные инциденты;
- Быть активным участником процессов инцидент и проблем менеджмента (включая участие в устранении аварий, стабилизации систем после дизастера и выполнения действий, запланированных в рамках постмортема);
- Работать над покрытием системы качественным мониторингом и повышением её observability;
- Вести систематическую работу надо повышением надежности платформы: взаимодействовать с командарми разработки и devops, выявлять и устранять недочёты в архитектуре, планировать и проводить учения по восстановлению после сбоев.