Цветочная улица 23
Мы ищем Senior MLOps-инженера в команду Machine Learning Infrastructure Services!
Ты будешь участвовать в проектировании и развитии Inference Platform-as-a-Service — масштабируемой, отказоустойчивой и производительной платформы для сервинга ML-моделей.
Мы ищем специалиста с опытом и отраслевой экспертизой, готового принимать инженерные решения и развивать наши продукты!
Основные задачи
-
Разрабатывать и поддерживать Inference Platform-as-a-Service
- Автоматизировать жизненный цикла ML-моделей - от регистрации до сервинга модели
- Создавать новые продукты для автоматизации ML-разработки
- Разрабатывать платформенные сервисы для ML
- Исследовать новые платформы/инструменты для внедрения их в продукты компании
- Продвигать и развивать best practices в области MLOps
Мы ожидаем ( ML / Inference трек)
-
Опыт развертывания и эксплуатации Kubernetes для инференса моделей (GPU/CPU)
- Практический опыт работы с MLOps-инструментами деплоя и эксплуатации моделей (Triton Inference Server, BentoML или аналогов)
-
Опыт работы с инференс-движками в Kubernetes
-
Знание принципов автоскейлинга, балансировки нагрузки и маршрутизации трафика в контексте ML-сервисов
-
Понимание принципов мониторинга качества и параметров ML-моделей
-
Опыт настройки и использования GPU-инфраструктуры: драйверы, CUDA Toolkit, MIG, GPU-Enabled Docker (nvidia-container-toolkit)
-
Понимание жизненного цикла ML-экспериментов и их трекинга (MLflow/Clearml или аналоги)
-
Уверенное знание Python
Мы ожидаем (OPS трек)
- Экспертные знания Kubernetes: контроллеры, операторы, HPA, работа с GPU (allocation, driver’s)
-
Опыт автоматизации инфраструктуры и Infrastructure as Code (Terraform, GitOps-подходы)
-
Опыт работы с системами контроля версий и CI/CD (GitLab, GitHub)
-
Опыт работы с Docker и OCI-образами
-
Администрирование Linux: от настройки до мониторинга и диагностики проблем
-
Опыт внедрения и работы со стеком мониторинга (Prometheus Stack)
-
Навыки безопасной работы с чувствительными данными (секреты, токены, сертификаты)
+100 к резюме
-
Опыт работы с Jupyter-средами
-
Знание REST/gRPC, HTTP-трассировки и дебага инференс-эндпоинтов
-
Опыт разработки проектов по работе с данными и ML на Python
-
Знание фреймворков ML/DL: PyTorch, TensorFlow, HuggingFace Transformers
-
Знание оркестраторов задач (Prefect, AirFlow)
-
Понимание принципов тестирования (Unit, Integration, System)
-
Понимание основ машинного обучения, его методов, а также сопряженных с ним дисциплин
-
Опыт поддержки production AI-сервисов
-
Желание помогать клиентам в решении их задач
Про условия
-
Оформление в официально аккредитованную IT-компанию
-
Белая заработная плата
-
Годовая премия по результатам работы до 15% от суммарного оклада за 12 месяцев
-
30 000 бонусных рублей на услуги компании ежегодно
-
Релокационный бонус при переезде
-
Бесплатные обеды и кофе-брейки
-
Гибкое начало рабочего дня (до 12:00), гибридный формат работы