Senior MLOps инженер

Дата размещения вакансии: 20.01.2026
Работодатель: Selectel
Уровень зарплаты:
з/п не указана
Город:
Санкт-Петербург
Цветочная улица 23
Требуемый опыт работы:
Более 6 лет

Мы ищем Senior MLOps-инженера в команду Machine Learning Infrastructure Services!

Ты будешь участвовать в проектировании и развитии Inference Platform-as-a-Service — масштабируемой, отказоустойчивой и производительной платформы для сервинга ML-моделей.

Мы ищем специалиста с опытом и отраслевой экспертизой, готового принимать инженерные решения и развивать наши продукты!

Основные задачи

  • Разрабатывать и поддерживать Inference Platform-as-a-Service

  • Автоматизировать жизненный цикла ML-моделей - от регистрации до сервинга модели
  • Создавать новые продукты для автоматизации ML-разработки
  • Разрабатывать платформенные сервисы для ML
  • Исследовать новые платформы/инструменты для внедрения их в продукты компании
  • Продвигать и развивать best practices в области MLOps

Мы ожидаем ( ML / Inference трек)

  • Опыт развертывания и эксплуатации Kubernetes для инференса моделей (GPU/CPU)

  • Практический опыт работы с MLOps-инструментами деплоя и эксплуатации моделей (Triton Inference Server, BentoML или аналогов)
  • Опыт работы с инференс-движками в Kubernetes

  • Знание принципов автоскейлинга, балансировки нагрузки и маршрутизации трафика в контексте ML-сервисов

  • Понимание принципов мониторинга качества и параметров ML-моделей

  • Опыт настройки и использования GPU-инфраструктуры: драйверы, CUDA Toolkit, MIG, GPU-Enabled Docker (nvidia-container-toolkit)

  • Понимание жизненного цикла ML-экспериментов и их трекинга (MLflow/Clearml или аналоги)

  • Уверенное знание Python

Мы ожидаем (OPS трек)

  • Экспертные знания Kubernetes: контроллеры, операторы, HPA, работа с GPU (allocation, driver’s)
  • Опыт автоматизации инфраструктуры и Infrastructure as Code (Terraform, GitOps-подходы)

  • Опыт работы с системами контроля версий и CI/CD (GitLab, GitHub)

  • Опыт работы с Docker и OCI-образами

  • Администрирование Linux: от настройки до мониторинга и диагностики проблем

  • Опыт внедрения и работы со стеком мониторинга (Prometheus Stack)

  • Навыки безопасной работы с чувствительными данными (секреты, токены, сертификаты)

+100 к резюме

  • Опыт работы с Jupyter-средами

  • Знание REST/gRPC, HTTP-трассировки и дебага инференс-эндпоинтов

  • Опыт разработки проектов по работе с данными и ML на Python

  • Знание фреймворков ML/DL: PyTorch, TensorFlow, HuggingFace Transformers

  • Знание оркестраторов задач (Prefect, AirFlow)

  • Понимание принципов тестирования (Unit, Integration, System)

  • Понимание основ машинного обучения, его методов, а также сопряженных с ним дисциплин

  • Опыт поддержки production AI-сервисов

  • Желание помогать клиентам в решении их задач

Про условия

  • Оформление в официально аккредитованную IT-компанию

  • Белая заработная плата

  • Годовая премия по результатам работы до 15% от суммарного оклада за 12 месяцев

  • 30 000 бонусных рублей на услуги компании ежегодно

  • Релокационный бонус при переезде

  • Бесплатные обеды и кофе-брейки

  • Гибкое начало рабочего дня (до 12:00), гибридный формат работы