MLOps инженер

Дата размещения вакансии: 24.03.2026
Работодатель: Т1
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

Обязанности:

  • Создание золотого образа под GPU-серверы/облачные GPU решения.
  • Разработка набора автопроверок: функциональные тесты (установка/инициализация/видимость GPU), smoke/health тесты, регрессия.
  • Нагрузочные тесты/бенчмарки, сбор метрик/Автоматизация жизненного цикла продукта.
  • Поддержка пилотов у заказчиков: подготовка стенда, диагностика, рекомендации по настройкам.
  • Оформление результатов: отчеты по тестированию, матрицы совместимости

Опыт работы:

  • 3+ года в DevOps/SRE/MLOps/Platform Engineering
  • Практический опыт эксплуатации Kubernetes-кластера
  • Опыт работы с GPU-окружениями и библиотеками (как минимум NVIDIA-стек)
  • Опыт подготовки воспроизводимых окружений: образы ОС/контейнеры, IaC, автоматизация развертываний
  • Опыт сопровождения ML-пайплайна на PyTorch
  • Желателен опыт поддержки клиентов/пилотов (PoC), разбор инцидентов, сбор требований, выпуск фиксов/релизов, ведение матрицы совместимости

Знания и навыки (минимальные):

  • Linux (сильный troubleshooting: systemd, сети, storage, kernel modules, права/SELinux
  • Kubernetes: базовая эксплуатация, namespaces/RBAC, daemonset (для node-level агентов), scheduling
  • CRI-O + Podman
  • CI/CD и Git
  • Автоматизация: Bash + Python , Ansible (или аналог)
  • Понимание программного стека GPU решени.

Знания и навыки (желательные):

  • NVIDIA-экосистема: CUDA, NCCL, NVML/DCGM, NVIDIA Container Toolkit, MIG
  • Inference/serving: Triton Inference Server, TensorRT, vLLM/llama.cpp, KServe/Seldon
  • Kubernetes : CNI/CSI, admission controllers, Helm/Kustomize, operators, cluster upgrades
  • IaC: Terraform, Packer, cloud-init
  • Мониторинг: Prometheus, Grafana, Loki/ELK, OpenTelemetry, алертинг и SLO/SLI
  • Нагрузочное/функциональное тестирование: pytest, locust/k6
  • Виртуализация/облака: OpenStack/VMware, понимание SR-IOV
  • PyTorch Distributed (DDP) / multi-GPU: понимание базовых принципов и типовых проблем запуска
  • Опыт работы с Astra Linux/РЕД ОС/ALT

Требования к личным качествам:

  • Системное мышление, аккуратность
  • Самостоятельность: способность развернуть стенд, зафиксировать гипотезы, провести диагностику, оформить результаты
  • Коммуникабельность
  • Ответственность за результат, стрессоустойчивость
  • Готовность быстро изучать незнакомый вендорский стек

Знание стека:

  • ОС: Linux (Ubuntu/Debian/CentOS-like; желательно Astra/РЕД ОС)
  • Контейнеризация: Docker/Containerd, Helm
  • K8s: Kubernetes (vanilla/managed), базовые практики эксплуатации GPU-нод
  • CI/CD: Git, GitLab CI/Jenkins
  • Automation/IaC: Ansible, Terraform (желательно), Packer/cloud-init (желательно)
  • Monitoring/Logs: Prometheus, Grafana, Loki/ELK
  • GPU: базовое понимание драйверов, device plugins, GPU diagnostics
  • ML Framework: PyTorch