з/п не указана
Москва
От 3 до 6 лет
Обязанности:
- Создание золотого образа под GPU-серверы/облачные GPU решения.
- Разработка набора автопроверок: функциональные тесты (установка/инициализация/видимость GPU), smoke/health тесты, регрессия.
- Нагрузочные тесты/бенчмарки, сбор метрик/Автоматизация жизненного цикла продукта.
- Поддержка пилотов у заказчиков: подготовка стенда, диагностика, рекомендации по настройкам.
- Оформление результатов: отчеты по тестированию, матрицы совместимости
Опыт работы:
- 3+ года в DevOps/SRE/MLOps/Platform Engineering
- Практический опыт эксплуатации Kubernetes-кластера
- Опыт работы с GPU-окружениями и библиотеками (как минимум NVIDIA-стек)
- Опыт подготовки воспроизводимых окружений: образы ОС/контейнеры, IaC, автоматизация развертываний
- Опыт сопровождения ML-пайплайна на PyTorch
- Желателен опыт поддержки клиентов/пилотов (PoC), разбор инцидентов, сбор требований, выпуск фиксов/релизов, ведение матрицы совместимости
Знания и навыки (минимальные):
- Linux (сильный troubleshooting: systemd, сети, storage, kernel modules, права/SELinux
- Kubernetes: базовая эксплуатация, namespaces/RBAC, daemonset (для node-level агентов), scheduling
- CRI-O + Podman
- CI/CD и Git
- Автоматизация: Bash + Python , Ansible (или аналог)
- Понимание программного стека GPU решени.
Знания и навыки (желательные):
- NVIDIA-экосистема: CUDA, NCCL, NVML/DCGM, NVIDIA Container Toolkit, MIG
- Inference/serving: Triton Inference Server, TensorRT, vLLM/llama.cpp, KServe/Seldon
- Kubernetes : CNI/CSI, admission controllers, Helm/Kustomize, operators, cluster upgrades
- IaC: Terraform, Packer, cloud-init
- Мониторинг: Prometheus, Grafana, Loki/ELK, OpenTelemetry, алертинг и SLO/SLI
- Нагрузочное/функциональное тестирование: pytest, locust/k6
- Виртуализация/облака: OpenStack/VMware, понимание SR-IOV
- PyTorch Distributed (DDP) / multi-GPU: понимание базовых принципов и типовых проблем запуска
- Опыт работы с Astra Linux/РЕД ОС/ALT
Требования к личным качествам:
- Системное мышление, аккуратность
- Самостоятельность: способность развернуть стенд, зафиксировать гипотезы, провести диагностику, оформить результаты
- Коммуникабельность
- Ответственность за результат, стрессоустойчивость
- Готовность быстро изучать незнакомый вендорский стек
Знание стека:
- ОС: Linux (Ubuntu/Debian/CentOS-like; желательно Astra/РЕД ОС)
- Контейнеризация: Docker/Containerd, Helm
- K8s: Kubernetes (vanilla/managed), базовые практики эксплуатации GPU-нод
- CI/CD: Git, GitLab CI/Jenkins
- Automation/IaC: Ansible, Terraform (желательно), Packer/cloud-init (желательно)
- Monitoring/Logs: Prometheus, Grafana, Loki/ELK
- GPU: базовое понимание драйверов, device plugins, GPU diagnostics
- ML Framework: PyTorch