Мы строим экосистему цифровых помощников на базе open-source LLM/VLM. Наши AI-агенты не просто «болтают», а автоматизируют бизнес-процессы клиентов — от автоматизации процессов до интеллектуального анализа данных. Мы ищем в команду MLOps Engineer’а, который построит надёжную и масштабируемую платформу для развёртывания и мониторинга наших AI-агентов и мультиагентских систем.
Вместе с нами тебе предстоит:
- DevOps для AI: Проектирование и развитие self-service CI/CD пайплайнов для бесшовного деплоя AI-агентов и мультиагентных систем.
- Инференс под нагрузкой: Развертывание и оптимизация LLM/VLM в продакшене (оптимизация памяти, скорость генерации) с использованием vLLM, Triton Inference Server, SGLang.
- Надёжность: Обеспечение высокой доступности сервисов, работа с масштабированием горизонтальных подов и управление состоянием агентов.
- Мониторинг 360°: Внедрение комплексного observability: от стандартных метрик (CPU/GPU, latency) до специфичных ML-метрик (качество генерации, дрейф данных, оценка тональности ответов).
Требования:
- Обязательный опыт вывода LLM-решений в прод.
- Уверенное владение Python и асинхронным программированием (asyncio).
- Уверенное владение Kubernetes (Helm, управление кластерами).
- Знание Gitlab CI, Jenkins и пр
- Понимание архитектуры RAG-систем, работы embedding-моделей и ранжирования.
- Умение оптимизировать инференс: квантизация, continuous batching, PagedAttention.
Будет плюсом: опыт с графовыми БД и построением мультиагентных систем
Стек: Python, FastAPI, langchain/llamaindex/haystack k8s, docker, S3, postgres Опыт работы с векторными и графовыми БД.