Москва
Задачи:
- обслуживание, поддержка и развитие продуктовой инсталляции (экосистема Openstack);
- автоматизация рутинных действий;
- поддержка и доработка внутренних решений SRE;
- участие в инцидент-менеджменте (траблшутинг, помощь разработке и L2/L1, работа с постмортемами);
- on-call дежурства по продуктовой среде;
- L3-поддержка пользователей;
- поддержка и развитие внутренних сервисов (DB - MariaDB + Galera + Proxysql /PosrgreSQL + Stolon, VictoriaMetrics, AlertManager, Elastic + пайплайны доставки логов и метрик, Ceph);
- доставка новых релизов для инфраструктурных компонентов на продуктовую инсталляцию;
- поддержка и развитие интеграционной среды.
Требования:
- опыт работы системным администратором/SRE-инженером от трёх лет;
- опыт обслуживания Linux-систем от трёх лет (оптимально на базе CentOS/RedOS);
- опыт работы с OpenStack в качестве администратора от года;
- опыт построения мониторинга и алертинга для сложных ИС (Grafana, Zabbix, VictoriaMetrics, AlertManager);
- прикладные навыки автоматизации с использованием Ansible/Terraform;
- прикладные навыки автоматизации на Bash/Python/Go;
- опыт построения технического SLA для сервисов (выбор SLI и выставление оптимальных SLO);
- навыки обслуживания и администрирования DBMS - MariaDB + Galera/PostgreSQL + Stolon;
- навыки работы и настройки геораспределённых ИС (BGP, VxLAN, EVPN, OVS).
Будет плюсом:
- опыт обслуживания Ceph;
- построение и внедрение стандартов мониторинга, алертинга; построение эффективных пайплайнов доставки логов/метрик (у нас ~70M точек в час, ~12K docs в час);
- опыт работы в продуктовой команде.