MLOps инженер

Дата размещения вакансии: 24.03.2026

Работодатель: Т1

Уровень зарплаты:

з/п не указана

Город:

Москва

Требуемый опыт работы:

От 3 до 6 лет

Обязанности:

Создание золотого образа под GPU-серверы/облачные GPU решения.
Разработка набора автопроверок: функциональные тесты (установка/инициализация/видимость GPU), smoke/health тесты, регрессия.
Нагрузочные тесты/бенчмарки, сбор метрик/Автоматизация жизненного цикла продукта.
Поддержка пилотов у заказчиков: подготовка стенда, диагностика, рекомендации по настройкам.
Оформление результатов: отчеты по тестированию, матрицы совместимости

Опыт работы:

3+ года в DevOps/SRE/MLOps/Platform Engineering
Практический опыт эксплуатации Kubernetes-кластера
Опыт работы с GPU-окружениями и библиотеками (как минимум NVIDIA-стек)
Опыт подготовки воспроизводимых окружений: образы ОС/контейнеры, IaC, автоматизация развертываний
Опыт сопровождения ML-пайплайна на PyTorch
Желателен опыт поддержки клиентов/пилотов (PoC), разбор инцидентов, сбор требований, выпуск фиксов/релизов, ведение матрицы совместимости

Знания и навыки (минимальные):

Linux (сильный troubleshooting: systemd, сети, storage, kernel modules, права/SELinux
Kubernetes: базовая эксплуатация, namespaces/RBAC, daemonset (для node-level агентов), scheduling
CRI-O + Podman
CI/CD и Git
Автоматизация: Bash + Python , Ansible (или аналог)
Понимание программного стека GPU решени.

Знания и навыки (желательные):

NVIDIA-экосистема: CUDA, NCCL, NVML/DCGM, NVIDIA Container Toolkit, MIG
Inference/serving: Triton Inference Server, TensorRT, vLLM/llama.cpp, KServe/Seldon
Kubernetes : CNI/CSI, admission controllers, Helm/Kustomize, operators, cluster upgrades
IaC: Terraform, Packer, cloud-init
Мониторинг: Prometheus, Grafana, Loki/ELK, OpenTelemetry, алертинг и SLO/SLI
Нагрузочное/функциональное тестирование: pytest, locust/k6
Виртуализация/облака: OpenStack/VMware, понимание SR-IOV
PyTorch Distributed (DDP) / multi-GPU: понимание базовых принципов и типовых проблем запуска
Опыт работы с Astra Linux/РЕД ОС/ALT

Требования к личным качествам:

Системное мышление, аккуратность
Самостоятельность: способность развернуть стенд, зафиксировать гипотезы, провести диагностику, оформить результаты
Коммуникабельность
Ответственность за результат, стрессоустойчивость
Готовность быстро изучать незнакомый вендорский стек

Знание стека:

Откликнуться