з/п не указана
Москва
Беговая улица 3с1
Беговая улица 3с1
Более 6 лет
Обязанности:
- Проектирование, развёртывание и эксплуатация высокодоступных Kubernetes-кластеров на bare metal, включая обновления, масштабирование, балансировку нагрузки и disaster recovery;
- участие в разработке и развитии унифицированной container platform — от архитектурных решений до внедрения ключевых компонентов:
- KubeOVN (оверлейная сеть с поддержкой OVN, ACL, QoS и L3–L7 политик),
- Виртуализации на уровне кластера через KubeVirt (запуск и управление виртуальными машинами как Kubernetes-объектами),
- GitOps-операторов для инфраструктурных задач (ArgoCD),
- Gateway API и Load Balancer’ов для управления трафиком,
и др.; - разработка и сопровождение инфраструктуры как кода (IaC) с использованием Terraform, Ansible и других инструментов для управления bare metal-серверами, сетями, кластерами и persistent-хранилищами;
- архитектура, оптимизация и поддержка инфраструктурных CI/CD-пайплайнов на базе GitLab CI;
- лидирование автоматизации рутинных операций и процессов восстановления: от мониторинга и алертинга до участия в on-call и post-mortem-анализе инцидентов;
- инициация и внедрение лучших практик в области отказоустойчивости, производительности и cost-оптимизации инфраструктуры;
- проектирование, развёртывание и поддержка распределённых систем хранения данных на bare metal, включая Ceph и другие решения для persistent volumes в Kubernetes (опыт с Ceph — будет плюсом);
- обеспечение стабильной работы инфраструктуры за счёт глубокого понимания и настройки ядра Linux, файловых систем, сетевого стека и ресурсного управления (cgroups, namespaces, systemd и др.).
Требования:
- опыт работы в роли DevOps/SRE/Platform Engineer от 3 лет;
- глубокие практические навыки работы с:
- Linux (системное администрирование, тюнинг, безопасность);
- Docker и Kubernetes;
- IaC: Terraform (предпочтительно с модульной архитектурой), Ansible; - понимание принципов построения отказоустойчивых, масштабируемых и безопасных систем;
- опыт проектирования, настройки и поддержки систем мониторинга и алертинга (например, Prometheus + Alertmanager, Grafana, VictoriaMetrics и т.п.), включая сбор метрик, логов, построение дашбордов;
- опыт работы в high-load средах будет преимуществом.
Условия:
-
работа в аккредитованной IT-компании (льготная ипотека и проч.);
-
официальное трудоустройство согласно ТК РФ;
-
режим работы - гибрид;
-
ДМС со стоматологией с первых недель работы;
-
по пятницам - сокращённый рабочий день (до 16:45), перед гос.праздниками рабочий день короче на час;
-
по-настоящему масштабный и интересный проект: в команде более 130 человек (архитекторы, девопсы, дата инженеры, разработчики, дата сайентисты и т.д.), высокотехнологичный ИТ-продукт, реализуемый на современном стеке.