з/п не указана
Москва
От 3 до 6 лет
Ключевые задачи:
- Поддержка кластеров (GPU/TPU), контейнеризации и оркестрации (Docker, Kubernetes);
- Аудит, оптимизация инфраструктуры и затрат (batch vs real-time inference, разграничение проблем железа и кода);
- Настройка мониторинга, алертинга и менеджмент железа между потребителями;
- Развертывание и поддержка ML-сервисов (MLflow, Airflow, CVAT, Doccano) в production;
- Настройка CI/CD для ML-пайплайнов и управление полным ML lifecycle (training -> serving).
Требования:
- Опыт DevOps от 4х лет, MLOps от 1 года;
- Опыт с GPU/TPU инфраструктурой (NVIDIA stack, CUDA);
- Коммерческий опыт с Docker, Ansible, Kubernetes; понимание специфики baremetal;
- ELK, Prometheus, Grafana;
- Опыт с ML Serving (Triton/vLLM/аналоги);
- Postgres, Redis, Kafka.
Будет плюсом, если есть опыт с:
- Python/Bash scripting;
- Облачные платформы (AWS/GCP/Azure/Yandex/Selectel) и Terraform;
- Spark/Hadoop;