от 400000 до 500000 RUR
Москва
Более 6 лет
Обязанности:
Техническое лидерство и архитектура:
- Формирование технического видения, архитектуры и дорожной карты развития систем инференса (LLM, эмбеддинги, реранкеры).
- Проектирование масштабируемой, отказоустойчивой микросервисной архитектуры с низкой задержкой и высокой пропускной способностью.
- Принятие ключевых архитектурных решений по сервингу моделей (vLLM, Triton, Ray Serve и др.), оркестрации (Kubernetes), API-дизайну (REST/gRPC) и управлению нагрузкой.
- Контроль оптимизации инференса: квантование, дистилляция, компиляция, батчинг, кэширование, gracefull degradation.
- Совместно с DevOps и смежными командами развитие ML-инфраструктуры, мониторинга (Prometheus, Grafana, ELK), CI/CD пайплайнов, MLOps-практик и RAG-компонентов (векторные БД, ретриверы, реранкеры)
- Совместная с владельцем продукта проработка долгосрочных целей по качеству и доступности AI-сервисов.
- Исследование и внедрение лучших практик и инструментов для развёртывания и эксплуатации LLM/RAG в production-масштабе.
- Развитие инженерного бренда команды: участие в технических конференциях, написание статей, открытые митапы (опционально).
Управление командой и процессами:
- Непосредственное руководство командой ML-инженеров: найм, онбординг, менторинг, регулярная обратная связь, планы развития.
- Организация рабочего процесса (спринты, планирование, ретроспективы), приоритизация задач в соответствии с бизнес-целями и техническими рисками.
- Обеспечение высокого инженерного стандарта: код-ревью, тестирование, документирование, версионирование моделей и данных.
- Построение культуры ответственности за сервисы от идеи до эксплуатации, ориентации на SLA и постоянного улучшения производительности и надёжности.
- Кросс-функциональное взаимодействие: быть связующим звеном между инженерами, дата-сайентистами, продакт-менеджерами и DevOps, транслировать технические требования и ограничения
Требования:
- Высшее техническое образование (профильное, например: Computer Science, прикладная математика, Software Engineering).
- Уверенное знание Python и экосистемы ML/инжиниринга.
- Глубокое понимание принципов построения высоконагруженных, отказоустойчивых распределённых систем.
- Опыт руководства командой разработки/ML-инженеров от 2 лет (тимлид, техлид) с прямым менеджментом людей.
Желательный опыт:
- 5+ лет в индустрии, из них от 3 лет в роли ML-инженера / MLOps-инженера или аналогичной, с production-опытом развёртывания ML-моделей.
- Практический опыт внедрения и эксплуатации инструментов сервинга моделей: Ray Serve, Triton Inference Server, KServe, vLLM, TGI.
- Глубокое знание инфраструктурного стека:
- Контейнеризация и оркестрация: продвинутый Docker, Kubernetes (Deployments, Services, HPA, requests/limits).
- Мониторинг и логирование: настройка Prometheus, Grafana, ELK для ML-сервисов.
- Проектирование API: REST/gRPC, идемпотентность, стратегии retry и circuit breaker.
- Навыки оптимизации инференса: опыт профилирования GPU/CPU, использование CUDA, TensorRT, ONNX Runtime, PyTorch Profiler.
- Практический опыт с полным циклом LLM/RAG (большое преимущество):
- Дообучение (fine-tuning, LoRA), промпт-инжиниринг, обслуживание LLM в production.
- Создание производительных RAG-систем (векторные БД, гибридный поиск, ранжирование).
- Опыт построения или масштабирования ML-инфраструктуры с нуля (MLOps, Feature Store, Model Registry).
- Базовые знания Big Data-стека (Spark) и фреймворков глубокого обучения (PyTorch, Hugging Face Transformers)
Условия:
- трудоустройство в соответствии с ТК РФ
- Премии - по результатам работы
- Медицинское страхование (ДМС)
- Возможность профессионального развития и карьерного роста
- Доброжелательная, демократичная и творческая атмосфера в коллективе
- Офис в шаговой доступности от метро (работа удаленно)
- Рабочий день с 10 до 18 часов.