з/п не указана
Москва
Ленинградский проспект 35с1
Ленинградский проспект 35с1
От 3 до 6 лет
Обязанности:
- Развивать и поддерживать платформу для запуска ML workloads.
- Администрировать и диагностировать проблемы в Kubernetes-кластера ML платформы.
- Автоматизировать рутинные задачи с помощью инструментов автоматизации - python, ansible и terraform.
- Поддерживать и развивать CI/CD-пайплайны и Helm чарты для ML сервисов.
- Выполнять клиентские заявки высокой сложности в Service Desk, ESMP, Jira.
- Настраивать мониторинг ML инфраструктуры - Prometheus, Grafana, Loki, Zabbix.
- Участвовать в проработке архитекруры будущих ML сервисов со стороны эксплуатации.
- Проводить плановые работы любого уровня сложности.
- Вести документацию в рамках зоны ответственности отдела.
- Вести аварии и составлять планы пост аварийных мер на ML платформе.
Требования:
- Опыт администрирования Kubernetes кластеров от одного года.
- Понимание, как работают основные компоненты Kubernetes: kube-apiserver, scheduler, controller-manager, kubelet, kube-proxy, etcd, CoreDNS.
- Практический опыт диагностики проблем в Kubernetes: networking, scheduling, probes, ресурсы, storage, ingress, RBAC, CRD/operators.
- Опыт работы с Helm: написание, модификация, шаблонизация, отладка и проверка чартов.
- Опыт работы с системами автоматизации: Ansible и Terraform
- Уверенное знание Linux на уровне администратора
- Понимание сетей в Linux и Kubernetes: routing, iptables/nftables, IPVS, DNS, service discovery, network policies, K8S CNI Calico/Cilium
- Опыт работы с CI/CD: желателен GitLab CI.
- Понимание Gitops подхода и цикла разработки приложение для k8s.
- Знание одного из языков программирования на среднем уровне: Python или Go.
- Опыт работы с системами мониторинга и логирования: Prometheus, Grafan, Loki, Zabbix или аналоги.
- Умение самостоятельно расследовать сложные технические проблемы, читать логи, метрики, события Kubernetes и исходники/документацию при необходимости.
Будет плюсом
- Опыт эксплуатации GPU-инфраструктуры в Kubernetes.
- Опыт работы с NVIDIA stack: GPU Operator, Network Operator, MIG, vGPU, NCCL
- Опыт с ML serving/inference технологиями: NVIDIA Triton, vLLM, Transformers, SGLang, TensorRT-LLM.
- Опыт работы с KServe, Knative, Kubeflow.
- Опыт с service mesh/gateway-слоем в k8s: Istio, Envoy Gateway, Gateway API.
- Опыт с storage в Kubernetes: Ceph/Rook
- Опыт работы с baremetal серверами и облаками.
- Понимание особенностей high-load inference workloads: long-running requests, streaming, autoscaling, GPU scheduling, лимиты ресурсов, latency, throughput.
Условия:
- Стабильный и прозрачный «белый» доход и полноценный соц. пакет;
- График работы 5/2, гибкое начало дня, гибридный или удаленный формат работы + три дополнительных дня отпуска в год;
- Корпоративный университет, который организует внутреннее и внешнее профильное обучение;
- Перспективы горизонтального и вертикального карьерного роста: вы можете стать руководителем или экспертом в своей области;
- Программу ДМС с обслуживанием в лучших клиниках города+оплата мобильной связи;
- Возможность принять участие в амбициозных, крупных и стабильных проектах.