Задачи:
- развитие и поддержка MLOps-инфраструктуры для обучения, деплоя и мониторинга
ML-моделей;
- управление крупным GPU-сервисом: планирование ресурсов, утилизация,
autoscaling, отказоустойчивость;
- автоматизация ML/CI/CD-пайплайнов и production-ready deployment;
- контейнеризация и оркестрация ML-сервисов (Docker, Kubernetes);
- мониторинг производительности, стоимости и стабильности GPU-инфраструктуры;
- взаимодействие с ML/DS-командами для быстрого и надежного вывода моделей в продакшн.
Требования:
- 3+ лет опыта в MLOps / ML Platform / DevOps for ML;
- практический опыт управления большой GPU-инфраструктурой или GPU-кластерами;
- уверенные знания Docker, Kubernetes, Linux, Python;
- опыт с ML-пайплайнами, batch/online inference, CI/CD;
- понимание мониторинга, логирования и observability (Prometheus, Grafana, ELK и др.);
- опыт оптимизации использования GPU-ресурсов, очередей и стоимости вычислений
- опыт с MLflow, Airflow, Ray, Slurm, Kubeflow.