Москва
Кутузовский проспект 32
Кутузовский проспект 32
Наша команда готовит данные для базовых моделей LLM (GigaChat) и Speech (ASR, Spotter, виртуальные ассистенты). Кроме того, мы помогаем смежным командам эффективно использовать данные технологии для оптимизации бизнес-процессов, улучшения сервисов.
Наши задачи на проекте с LLM (GigaChat):
- готовим данные для всех этапов обучения GigaChat: претрейн, файнтюнинг (SFT), RLHF, доменное обучение, продуктовые кейсы и др.
- придумываем и внедряем метрики оценки качества работы GigaChat
- организуем всю разметку для GigaChat: пишем DE пайплайны, делаем аналитику, пишем методологию
- инициируем различные эксперименты для обучения базовой модели
- обучаем модели для обработки данных. Например, классификаторы типов, сегментация документов и пр.
Обязанности
- сбор и обработка данных для обучения базовых моделей LLM и ее компонент (претрейн, SFT, reward, PPO и пр.)
- реализация проектов для B2B на основе базовой модели: мы работаем с множеством смежных команд и внешними заказчиками, разрабатываем end-2-end решения
- определение необходимых метрик для различных компонент, сбор датасетов, написание кода замеров. Мы ищем лучшие метрики для оценки качества работы LLM: от общепринятых (MMLU, TruthfulQA и др.) до кастомных метрик оценки качества работы модели в режиме диалогов или мультимодальных сценариях
- написание пайплайнов сбора разметки. Наша команда отвечает за организацию сбора всей разметки для проекта GigaChat: методология, разработка сценариев, кодовая база, мониторинги качества, агрегация и оценка качества конечных меток. Мы имеем обширную кодовую базу, которая еженедельно пополняется
- изучение свежих материалов и статей, касающихся работы с обучающими данными LLM, улучшение описанных подходов, проведение экспериментов на базе SOTA подходов и их адаптаций
Требования
- знаешь Python на высоком уровне (алгоритмы, структуры данных, GIL, async - Pandas в разработке не используем)
- умеешь работать в базами данных
- разбираешься в метриках: как ML, так и продуктовых
- знаешь математическую статистику, теорию вероятностей и умеешь применять их на практике
Условия
- очень сильная молодая команда с которой можно расти вместе
- масштабные, сложные и разнообразные задачи
- есть возможность влиять на развитие продукта и результат
- конкурентную компенсацию (оклад и премии по результатам деятельности)
- свободный дресс-код
- гибкий график для оптимального баланса работы и личной жизни
- профессиональное обучение, семинары, тренинги, конференции, корпоративная библиотека
- ДМС, страхование жизни
- самые инновационные, амбициозные проекты и задачи
- льготные кредиты и корпоративные скидки