Москва
2-я Звенигородская улица 28
2-я Звенигородская улица 28
Мы ищем инженера в команду L3 со специализацией в облачных PaaS, который сможет эффективно и быстро решать инциденты и проблемы, а также работать над повышением надежности платформы.
Вам предстоит:
- Реагировать на инциденты и проблемы (переданные с L2) и оповещения мониторинга;
- Проводить диагностику, выявлять причины сбоев и восстанавливать работу сервисов;
- Участвовать в разборе инцидентов и поиске их причин, участвовать в написании postmortem, контролировать выполнение мер по предотвращению повторений инцидентов;
- Создавать и поддерживать в актуальном состоянии документацию и инструкции для инженеров поддержки L2 и L3;
- Вместе с SRE работать над повышением надёжности системы (мониторинг, алертинг, поиск/указание слабых мест и т.п.).
Требования:
- PostgreSQL – установка, обслуживание продуктовых инсталляций. Понимание что такое wal файлы, sync-async репликации;
- Уверенные знания о контейнеризации и Kubernetes;
- Опыт сопровождения критических информационных систем и инфраструктуры;
- Способность принимать взвешенные решения в критической ситуации и умение планомерно работать над поиском причины неисправности и её устранением;
- Уверенные знания и опыт администрирования Linux;
- Базовые знания в области сетевых технологий;
- Умение работать с инструментами мониторинга и логирования (Zabbix / Prometheus, / Grafana / ELK ).
Будет плюсом:
- Опыт работы с PostgreSQL как оператором в Kubernetes;
- Знание технологий Openstack;
- Можете читать или писать на Python или Go;
- Имеете опыт работы с Ansible (написание плейбуков, ролей);
- Имеете знания или опыт работы с системами контроля версий (Git) и CI/CD (Gitlab, Jenkins).