MLOps engineer (Центр платформенных ИИ-решений)

Дата размещения вакансии: 10.11.2025
Работодатель: АО «ОТП Банк» (JSC «OTP Bank»)
Уровень зарплаты:
з/п не указана
Город:
Москва
Ленинградское шоссе 16Ас2
Требуемый опыт работы:
От 3 до 6 лет

Чем предстоит заниматься:

  • Развёртывание и масштабирование инфраструктуры: проектирование, развертывание и конфигурация серверной и облачной инфраструктуры для запуска моделей ML/LLM. Обеспечение масштабируемости (например, настройка кластеров Kubernetes для обслуживания моделей под высокими нагрузками);
  • CI/CD: построение конвейеров непрерывной интеграции и доставки изменений (в частности для деплоя LLM-моделей);
  • Мониторинг и надежность: внедрение систем мониторинга производительности моделей и сервисов (метрики времени отклика, использование ресурсов, качество ответов моделей). Настройка алертинга и логирования для быстрого выявления сбоев или деградации производительности систем;
  • Оптимизация и эффективность: анализ производительности инфраструктуры и внесение улучшений для оптимизации скорости работы систем (например, использование GPU/TPU). Контроль за эффективным использованием ресурсов и затратами;
  • Изучение и внедрение новых инструментов в процессы работы;
  • Сотрудничество с командами. Консультирование коллег по лучшим практикам DevOps/MLOps/LLMOps.

Что мы ждём:

  • Языки и фреймворки: Python (в том числе библиотеки для ML: scikit-learn, PyTorch, TensorFlow для базового понимания моделей), скрипты Bash для автоматизации;
  • Контейнеры и оркестрация: Docker, Kubernetes (kubectl, Helm), Docker Compose для локального тестирования;
  • CI/CD и DevOps: Git для контроля версий, платформы CI/CD (GitLab, Jenkins), система управления конфигурациями Ansible, Terraform для инфраструктуры как кода;
  • Мониторинг и логирование: Prometheus/Grafana, стек ELK/EFK, а также облачные аналоги (например, CloudWatch, Stackdriver) при работе в облаке;
  • Прочее: MLflow или DVC для версионирования данных и моделей; Kafka или RabbitMQ для потоковой обработки, если используется; инструменты для деплоя моделей (TensorFlow Serving, TorchServe);
  • Английский (Средний уровень).