Москва
Мы ищем технического лидера, который заложит фундамент системного подхода к оценке качества больших языковых моделей (LLM) в компании.
Чем предстоит заниматься:
- Проектирование и внедрение фреймворка для оценки LLM-моделей и пайплайнов: разработка бенчмарков, автоматизация процессов и лучших практик
- Разработка стандартов и методик оценки, а также консультирование команд по их внедрению
- Сравнительный анализ и выбор моделей от внешних вендоров и open-source сообщества
- Организация процессов оценки с привлечением экспертов (human evaluation) и с использованием LLM (включая сбор разметки и подход LLM-as-a-judge)
- Глубокий анализ качества моделей и пайплайнов и их влияния на ключевые продуктовые метрики
- Оценка эффективности GenAI-функционала, который используется миллионами пользователей
Мы ожидаем, что у вас есть:
- Опыт построения и внедрения систем оценки качества ML-моделей в продуктовой разработке (offline-метрики, human evaluation, A/B-тесты)
- Глубокое понимание задач и методов NLP/LLM: генерация текста, классификация, ранжирование, логический вывод (reasoning) и другие
- Опыт разработки или поддержки пайплайнов для оценки моделей (стек: Python, ML-инфраструктура, автоматизация)
- Практические навыки организации и управления процессом human-разметки, знание подходов типа LLM-as-a-judge
- Уверенное владение Python и его экосистемой для Data Science (numpy, pandas, sklearn, PyTorch), опыт работы с библиотеками и фреймворками типа HuggingFace, LangChain и др.
- Искренний интерес к сфере GenAI, понимание принципов построения LLM-систем (prompt engineering, RAG, агенты)
- Готовность быть драйвером и экспертом в области лучших практик внутри компании
Будет преимуществом: ✨
- Участие в проектах с открытым исходным кодом (Open LLM Leaderboard, MT-Bench, Arena, trlx и аналогичные)
- Опыт работы с платформами для краудсорсинговой разметки
- Опыт обучения или промышленного внедрения больших языковых моделей
Мы предлагаем:
- Выбор формата работы: удаленно или из офиса
- Гибкое начало и окончание рабочего дня
- Официальное трудоустройство по ТК РФ, своевременная выплата «белой» заработной платы
- Корпоративная программа ДМС, подключение с первого месяца работы
- Возможности для профессионального роста: обучение за счет компании, посещение профильных конференций и митапов
Процесс собеседования:
1) Знакомство с рекрутером 👋 - расскажем о компании и вакансии, узнаем о вашем опыте и ожиданиях
2) Две технические встречи 💻 (по 45 минут каждая): на каждой присутствуют 2 собеседующих (Data Scientists)
3) Финальное собеседование (1.5 часа): с нанимающим менеджером, Data Scientist и продуктовым менеджером