Москва
На этой позиции тебе предстоит:
- оценка систем на строгое соответствие "Стандарту по архитектурным решениям для внутренних АС" и "Требованиям к эксплуатации ПО", контроль устранения недоработок, в том числе внесение изменений в системы, находящиеся в промышленной эксплуатации;
- контролировать выпуск в промышленную эксплуатацию всего "кода": весь деплой должен быть покрыт тестами с возможностью отката всех внесенных изменений;
- качественный мониторинг и алертинг: сам дорабатывает имеющееся и разрабатывает новое;
- участие в инцидент-менеджменте: участие в устранении аварий; последующей стабилизации; заполнении и разборе постмортемов; разработка и выполнение мер, направленных на предотвращение повторных инцидентов;
- проведение DR тестирования согласно DRP;
- согласование изменений продукта (архитектуры, дизайна, масштабирования), оценка рисков и целесообразности.
Что мы ждем от кандидата:
-
знание и опыт использования систем мониторинга и понимание технологий сбора метрик, понимание для чего нужен мониторинг;
-
Zabbix, Prometheus, Grafana;
-
знание *nix систем на уровне пользователя и выше, знание стандартных команд;
-
понимание работы приложений «клиент-сервер»;
-
знание стека TCP/IP;
-
понимание роли координатора инцидентов;
-
минимальные знания скриптовых языков программирования (Bash, Python и тп);
-
готовность работать в сменном графике, офис (2/2, день, ночь).
Дополнительно:
-
опыт работы в направлении мониторинга;
-
опыт работ в системах ServiceDesk, JIRA , Confluence и т.д;
-
опыт администрирования высоконагруженных систем.