MLops-инженер

Дата размещения вакансии: 28.04.2025
Работодатель: Т1
Уровень зарплаты:
з/п не указана
Город:
Новосибирск
Требуемый опыт работы:
От 3 до 6 лет

Обязанности:

  • Усовершенствовать существующую инфраструктуру в целях повышения ее отказоустойчивости, безопасности и масштабируемости
  • Предложить системы мониторинга и систему управления инцидентами (внедрение практик SRE)
  • Управлять облачными и локальными ресурсами с использованием контейнеризации и оркестрации Docker, Kubernetes)
  • Автоматизировать и поддерживать процессы CI/CD
  • Создать и поддерживать документацию по DevOps-процессам и инфраструктуре

Требования:

  • Понимание CI/CD процессов и опыт их реализации
  • Умение работать с инфраструктурой как кодом (IaC), например, с использованием Terraform или Ansible
  • Опыт развертывания и мониторинга ML-моделей в промышленном окружении
  • Умение работать с системами логирования и мониторинга (Prometheus, Grafana, ELK/OpenSearch Stack)
  • Опыт администрирования Linux-серверов
  • Опыт настройки резервного копирование и клонирование дисков в Ubuntu
  • Опыт работы с Kubernetes (установка, настройка, обновление, Helm-чарты)
  • Опыт работы с различными типами хранилищ данных: SQL (PostgreSQL, ClickHouse), объектные хранилища (S3/MinIO)
  • Навыки написания скриптов на Python, Bash
  • Опыт администрирования прод сервера в компании с числом пользователей более 100
  • Опыт настройки Docker Compose
  • Опыт или глубокое понимание настройки систем резервирования и восстановления систем в проде (не обязательно RAID)