Tech Lead / ML Lead в Generative AI (Оценка качества LLM)

Дата размещения вакансии: 03.10.2025
Работодатель: Spice IT
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

Мы ищем технического лидера, который заложит фундамент системного подхода к оценке качества больших языковых моделей (LLM) в компании.

Чем предстоит заниматься:

  • Проектирование и внедрение фреймворка для оценки LLM-моделей и пайплайнов: разработка бенчмарков, автоматизация процессов и лучших практик
  • Разработка стандартов и методик оценки, а также консультирование команд по их внедрению
  • Сравнительный анализ и выбор моделей от внешних вендоров и open-source сообщества
  • Организация процессов оценки с привлечением экспертов (human evaluation) и с использованием LLM (включая сбор разметки и подход LLM-as-a-judge)
  • Глубокий анализ качества моделей и пайплайнов и их влияния на ключевые продуктовые метрики
  • Оценка эффективности GenAI-функционала, который используется миллионами пользователей

Мы ожидаем, что у вас есть:

  • Опыт построения и внедрения систем оценки качества ML-моделей в продуктовой разработке (offline-метрики, human evaluation, A/B-тесты)
  • Глубокое понимание задач и методов NLP/LLM: генерация текста, классификация, ранжирование, логический вывод (reasoning) и другие
  • Опыт разработки или поддержки пайплайнов для оценки моделей (стек: Python, ML-инфраструктура, автоматизация)
  • Практические навыки организации и управления процессом human-разметки, знание подходов типа LLM-as-a-judge
  • Уверенное владение Python и его экосистемой для Data Science (numpy, pandas, sklearn, PyTorch), опыт работы с библиотеками и фреймворками типа HuggingFace, LangChain и др.
  • Искренний интерес к сфере GenAI, понимание принципов построения LLM-систем (prompt engineering, RAG, агенты)
  • Готовность быть драйвером и экспертом в области лучших практик внутри компании

Будет преимуществом:

  • Участие в проектах с открытым исходным кодом (Open LLM Leaderboard, MT-Bench, Arena, trlx и аналогичные)
  • Опыт работы с платформами для краудсорсинговой разметки
  • Опыт обучения или промышленного внедрения больших языковых моделей

Мы предлагаем:

  • Выбор формата работы: удаленно или из офиса
  • Гибкое начало и окончание рабочего дня
  • Официальное трудоустройство по ТК РФ, своевременная выплата «белой» заработной платы
  • Корпоративная программа ДМС, подключение с первого месяца работы
  • Возможности для профессионального роста: обучение за счет компании, посещение профильных конференций и митапов

Процесс собеседования:

1) Знакомство с рекрутером 👋 - расскажем о компании и вакансии, узнаем о вашем опыте и ожиданиях

2) Две технические встречи 💻 (по 45 минут каждая): на каждой присутствуют 2 собеседующих (Data Scientists)

3) Финальное собеседование (1.5 часа): с нанимающим менеджером, Data Scientist и продуктовым менеджером