Москва
Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Данных много. Очень много (40+ Пб сырого хаоса). Если хочется не просто тренировать модели, а работать с реально большими данными, то вот твой шанс.
Обязанности
- чистить данные по узким доменам (аниме, игры, сериалы, книги, фильмы) → LLM-парсинг + Code Execution Feedback
- генерить синтетические данные
- разбираться с токенизацией
- кластеризовать данные
- писать дедупликацию на Rust
- оптимизировать MapReduce → Spark, тысячи ядер
- экспериментировать с SFT и RL → DPO, DRPO, увеличиваем качество синтетики.
Требования
- выпускник ШАД/ ВШЭ Факультета компьютерных наук/ МФТИ Факультета инноваций и высоких технологий
- ИЛИ коммерческий релевантный опыт в роли NLP Engineer от двух лет
- навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом
- опыт использования GigaChat, Kandinsky и аналогов в продуктах, навыки создания и использования AI-агентов
- инструментальное владение AI для анализа, генерации и автоматизации.
Условия
- комфортный современный офис ст. м. Кутузовская
- ежегодный пересмотр зарплаты, годовой бонус
- корпоративный спортзал и зоны отдыха
- уникальная система обучения Сбера для профессионального развития
- расширенный ДМС и льготное страхование для семьи
- гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера
- корпоративная пенсионная программа.