Обязанности:
-
реагировать на инциденты и проблемы (переданные с L2) и оповещения мониторинга;
-
проводить диагностику, выявлять причины сбоев и восстанавливать работу сервисов;
-
участвовать в разборе инцидентов и поиске их причин, участвовать в написании postmortem, контролировать выполнение мер по предотвращению повторений инцидентов;
-
создавать и поддерживать в актуальном состоянии документацию и инструкции для инженеров поддержки L2 и L3;
-
вместе с SRE работать над повышением надёжности системы (мониторинг, алертинг, поиск/указание слабых мест и т.п.).
Требования:
-
уверенные знания в области Openstack (nova, cinder, glance, ovn);
-
уверенные знания и опыт администрирования Linux;
-
опыт сопровождения критических информационных систем и инфраструктуры (чем сложнее – тем лучше);
-
способность принимать взвешенные решения в критической ситуации и умение планомерно работать над поиском причины неисправности и её устранением;
-
знания и умение работать с Kubernetes (управление, поиск неисправностей);
- базовые знания в области сетевых технологий;
-
умение работать с инструментами мониторинга и логирования (Zabbix / Prometheus, / Grafana / ELK ).
Дополнительно
- можете читать или писать на Bash, Python ;
- имеете опыт работы с Ansible (написание плейбуков, ролей...);
- имеет опыт работы с docker
- имеете знания или опыт работы с системами контроля версий (Git) и CI/CD (Gitlab, Jenkins).