Москва
Кутузовский проспект 32
Кутузовский проспект 32
Наша команда готовит данные для базовых моделей LLM (GigaChat) и Speech (ASR, Spotter, виртуальные ассистенты), Кроме того, мы помогаем смежным командам эффективно использовать данные технологии для оптимизации бизнес-процессов, улучшения сервисов.
Наши задачи на проекте с LLM (GigaChat):
- Готовим данные для всех этапов обучения GigaChat: претрейн, файнтюнинг (SFT), RLHF, доменное обучение (финансы, медицина, образование и тп.), продуктовые кейсы и др.;
- Придумываем и внедряем метрики оценки качества работы GigaChat;
- Организуем всю разметку для GigaChat: пишем DE пайплайны, делаем аналитику, пишем методологию;
- Инициируем различные эксперименты для обучения базовой модели;
- Обучаем модели для обработки данных. Например, классификаторы типов, сегментация документов и пр.
Базовые задачи для нашей вакансии:
- Написание пайплайнов анализа моделей перед выкаткой в продакшн, анализ моделей
- Пайплайн сбора тренировочных данных
- Пайплайн сбора разметки
- Скрипты расчета различных метрик
- Доработка функционала для работы со смежниками
Чего мы ждем:
- Знаешь Python на высоком уровне (алгоритмы, структуры данных, GIL, async - Pandas в разработке не используем);
- Умеешь работать с базами данных;
- Разбираешься в метриках: как ML, так и продуктовых;
- Знаешь математическую статистику, теорию вероятностей и умеешь применять их на практике.
Если среди опыта есть подготовка данных для больших моделей - существенный плюс.
Условия:
- Есть возможность влиять на развитие продукта и результат
- Конкурентную компенсацию (оклад и премии по результатам деятельности)
- Свободный дресс-код
- Гибкий график для оптимального баланса работы и личной жизни
- Профессиональное обучение, семинары, тренинги, конференции, корпоративная библиотека
- ДМС, страхование жизни
- Льготные кредиты и корпоративные скидки