2-я Звенигородская улица 28
На этой позиции тебе предстоит:
- отвечать за production;
- проектировать, разрабатывать, внедрять и поддерживать метрики, алерты, ранбуки и дашборды для продукта;
- повышать наблюдаемость и надежность продукта;
- участвовать в устранении аварий и последующей стабилизации продукта;
- участвовать в заполнении и разборе постмортемов;
- разрабатывать и выполнять меры, направленные на предотвращение повторных инцидентов;
- автоматизировать рутинную работу;
- разрабатывать DRP;
- участвовать в разработке процессов, используемых в работе.
Что мы ждем от кандидата:
-
свободно и на экспертном уровне работаете с Linux-системами и занимались их промышленной эксплуатацией;
-
понимаете SLO/SLI/SLA, умеете применять на практике; имеете опыт работы с Grafana, Prometheus, виртуализацией;
-
понимаете принципы IaC-подхода к описанию инфраструктуры;
-
понимаете, как работают сети и умеете диагностировать и решать проблемы в их работе;
-
работали с различными вариациями СХД: блочные массивы, SDS.
Дополнительно:
- имеете опыт промышленной эксплуатации OpenStack;
- имеете практический опыт работы SRE;
- знаете, как сделать отказоустойчивый масштабируемый сервис;
- умеете работать с системами управления конфигурацией.