Senior MLOps/Devops инженер (LLM)

Дата размещения вакансии: 26.03.2026

Работодатель: СБЕР

Уровень зарплаты:

з/п не указана

Город:

Москва
Кутузовский проспект 32к3

Требуемый опыт работы:

Более 6 лет

Мы строим платформу для инференса и SFT opensource LLM. Используем продвинутые cutting edge движки для инференса, много экспериментируем и боремся за каждую дополнительную единицу в Token thoughput. Cейчас мы находимся в поиске MLOps-инженера, который вместе с нами продолжит настраивать и улучшать инфраструктуру инференса LLM-моделей и осуществлять вывод решений в прод контур.

Первый этап отбора на эту вакансию - общение с AI-рекрутером. После отклика вам на почту и в чат на платформе HeadHunter придет приглашение пройти первичное интервью с ГигаРекрутером в Telegram. Диалог займёт примерно 10 минут. Его задача - уточнить недостающие детали и ускорить рассмотрение вашей кандидатуры. ГигаРекрутер только начинает свой путь, поэтому просим относиться с пониманием. Ваш опыт и участие помогут сделать его удобным и полезным!

Вам предстоит:

разрабатывать и оптимизировать инфраструктуру инференса LLM-моделей для минимальной задержки и высокой пропускной способности внутренних приложений и сервисов
обеспечивать масштабируемость и надежность LLM-serving инфраструктуры; выбирать и настраивать инструменты для инференса (sglang, vLLM, llama.cpp)
разрабатывать механизмы разграничения доступов к API-сервисам моделей
строить систему observability и мониторинга LLM-инференса
собирать модели в сервисы и интерфейсы (FastAPI, Flask, Tornado, Streamlit, Chainlit и т.д.)

Мы ожидаем:

опыт в аналогичной роли от 5 лет
оппыт с Linux (сеть, storage, роли/пользователи, менеджмент процессов)
уверенное владение Kubernetes (используем Istio Service Mesh)
опыт построения высокопроизводительных LLM-сервисов (sglang, vLLM)
опыт настройки высоконагруженных прокси-серверов (nginx, Envoy, HAProxy): load balancing, rate limiting, SSL termination, health checks
владение языками: Bash, Python, Groovy (Jenkins scripted)
продвинутые навыки в CI/CD и оркестрации моделей.

Будет преимуществом:

понимание распределенных систем и GPU-коммуникации (NCCL, MPI, RDMA, InfiniBand)
знание служебных компонентов LLM-пайплайна: токенизаторы, KV-cache, контекстное окно
понимание внутренней архитектуры GPU (CUDA, cuDNN, Tensor Cores)
опыт работы с векторными БД (Opensearch, Qdrant, FAISS, pgvector) для RAG и других задач.

Мы предлагаем:

гибридный формат работы (2-3 дня в офисе)
годовой бонус и ежегодный пересмотр
расширенный ДМС с первого дня + стоматологию и льготное страхование для семьи
корпоративный университет Сбера, внутреннюю образовательную платформу, участие в IT-конференциях
офис на Кутузовской с зонами отдыха и спортзалом
льготную ипотеку в Сбере, корпоративную пенсионную программу, подписку СберПрайм+, скидки от партнеров и сервисов группы компаний.

Откликнуться

Senior MLOps/Devops инженер (LLM)

Вам предстоит:

Мы ожидаем:

Мы предлагаем:

Похожие вакансии: Москва