DevOps \ MLOps

Дата размещения вакансии: 25.06.2026

Работодатель: РТК-ЦОД

Уровень зарплаты:

з/п не указана

Город:

Москва
Ленинградский проспект 35с1

Требуемый опыт работы:

От 3 до 6 лет

Обязанности:

Развивать и поддерживать платформу для запуска ML workloads.
Администрировать и диагностировать проблемы в Kubernetes-кластере ML платформы.
Автоматизировать рутинные задачи с помощью инструментов автоматизации - python, ansible и terraform.
Поддерживать и развивать CI/CD-пайплайны и Helm чарты для ML сервисов.
Выполнять клиентские заявки высокой сложности в Service Desk, ESMP, Jira.
Настраивать мониторинг ML инфраструктуры - Prometheus, Grafana, Loki, Zabbix.
Участвовать в проработке архитектуры будущих ML сервисов со стороны эксплуатации.
Проводить плановые работы любого уровня сложности.
Вести документацию в рамках зоны ответственности отдела.
Вести аварии и составлять планы пост аварийных мер на ML платформе.

Требования:

Опыт администрирования Kubernetes кластеров от одного года.
Понимание, как работают основные компоненты Kubernetes: kube-apiserver, scheduler, controller-manager, kubelet, kube-proxy, etcd, CoreDNS.
Практический опыт диагностики проблем в Kubernetes: networking, scheduling, probes, ресурсы, storage, ingress, RBAC, CRD/operators.
Опыт работы с Helm: написание, модификация, шаблонизация, отладка и проверка чартов.
Опыт работы с системами автоматизации: Ansible и Terraform.
Уверенное знание Linux на уровне администратора.
Понимание сетей в Linux и Kubernetes: routing, iptables/nftables, IPVS, DNS, service discovery, network policies, K8S CNI Calico/Cilium.
Опыт работы с CI/CD: желателен GitLab CI.
Понимание Gitops подхода и цикла разработки приложения для k8s.
Знание одного из языков программирования на среднем уровне: Python или Go.
Опыт работы с системами мониторинга и логирования: Prometheus, Grafan, Loki, Zabbix или аналоги.
Умение самостоятельно расследовать сложные технические проблемы, читать логи, метрики, события Kubernetes и исходники/документацию при необходимости.

Будет плюсом

Опыт эксплуатации GPU-инфраструктуры в Kubernetes.
Опыт работы с NVIDIA stack: GPU Operator, Network Operator, MIG, vGPU, NCCL.
Опыт с ML serving/inference технологиями: NVIDIA Triton, vLLM, Transformers, SGLang, TensorRT-LLM.
Опыт работы с KServe, Knative, Kubeflow.
Опыт с service mesh/gateway-слоем в k8s: Istio, Envoy Gateway, Gateway API.
Опыт с storage в Kubernetes: Ceph/Rook.
Опыт работы с baremetal серверами и облаками.
Понимание особенностей high-load inference workloads: long-running requests, streaming, autoscaling, GPU scheduling, лимиты ресурсов, latency, throughput.

Что мы предлагаем:

Стабильный «белый» доход и полноценный соц. пакет;
Гибкое начало дня и гибридный формат работы (обсуждаем индивидуально с каждым кандидатом);
Корпоративный университет для внутреннего и внешнего профильного обучения;
Отличные перспективы карьерного роста – горизонтального и вертикального.

А также для Вас:

Программа ДМС с обслуживанием в лучших клиниках города;
Корпоративные команды по футболу, волейболу, бегу, а также скидки на фитнес-абонементы;
Эксклюзивная программа корпоративных привилегий и скидок Primezone;
Корпоративная мобильная связь.

Работая вместе с нами, Вы сможете принять участие в амбициозных, крупных проектах, значимых для страны!

Откликнуться

DevOps \ MLOps

Похожие вакансии: Москва