AdminDivision / ООО “ВПРОД”
Вакансия MLOps-инженер / инженер внедрения (LLM Platform / Inference)
Уровень: Middle+/Senior
Формат: Полностью удалённая работа, full-time или part-time занятость, оформление по ТК
Зарплата: По итогам собеседования (конкурентная рыночная вилка)
AdminDivision — команда инженеров с большим опытом построения высоконагруженных и отказоустойчивых систем для телекома, финтеха и IT-компаний.
Сейчас мы активно развиваем направление MLOps и LLM Platform и ищем сильного инженера, который будет внедрять и сопровождать ML/LLM-решения на production-инфраструктуре заказчиков.
Что предстоит делать:
-
Внедрять и адаптировать LLM-решения на инфраструктуре клиентов
-
Разворачивать и сопровождать inference-сервисы в Kubernetes (vLLM, KServe, LiteLLM и др.)
-
Настраивать GPU workloads, storage, networking и observability
-
Проводить анализ, диагностику и устранение инцидентов
-
Консультировать ML/ML-инженеров и команды разработки по инфраструктуре
-
Готовить качественную документацию и runbook’и
-
Вести проекты в составе команды и быть ответственным за результаты своей части работы
Что для нас важно:
Linux и эксплуатация
-
Уверенная работа с Linux в production: troubleshooting CPU, memory, disk, network, logs
-
Понимание сетей (TCP/IP, DNS, HTTP/HTTPS), опыт с nginx / Traefik / аналогами
Kubernetes
-
Практический опыт эксплуатации Kubernetes в production
-
Уверенное владение Deployment, StatefulSet, Service, Ingress, PVC, Helm
-
Умение быстро разбирать CrashLoopBackOff, OOMKilled, проблемы scheduling и readiness/liveness
DevOps и автоматизация
-
Опыт написания и отладки Ansible-ролей
-
Docker (написание и оптимизация Dockerfile)
-
CI/CD (GitLab CI или GitHub Actions): сборка, тестирование и деплой контейнеров
Мониторинг
-
Prometheus / VictoriaMetrics + Grafana
-
Умение писать PromQL и строить дашборды
MLOps / LLM
-
Понимание inference-пайплайна и компонентов: vLLM, KServe, LiteLLM, embedding/reranking, model routing
-
Базовое понимание GPU serving: VRAM sizing, batching, KV cache, tensor parallelism
Будет большим плюсом:
-
Опыт с GPU Operator / NVIDIA device plugin
-
Argo CD / GitOps
-
Self-hosted LLM-платформы
-
PostgreSQL + Patroni, object storage (S3)
-
MLflow, Airflow, vector DB, RAG
Мы предлагаем:
-
Реальные production-задачи на стыке Kubernetes, GPU и LLM
-
Возможность влиять на архитектуру и процессы
-
Сильную инженерную команду и сложные технические вызовы
-
Полностью удаленный формат работы с оформлением по ТК в компании с гос.аккредитацией