NLP engineer (GigaChat Pretrain Data)

Дата размещения вакансии: 30.09.2025

Работодатель: СБЕР

Уровень зарплаты:

з/п не указана

Город:

Москва

Требуемый опыт работы:

От 1 года до 3 лет

Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Pretrain данные - это фундамент, с которого начинается путь современной LLM модели и то, от чего наиболее зависит ее итоговое качество. Сырых данных более 40Пб и основная задача заключается в том, чтобы из этого хаоса сделать датасет, на котором будет обучена лучшая LLM в России.

Обязанности

генерировать синтетические данные: математика, код, произвольная синтетика с сидами - документами из Web
исследовать токенизацию и ее влияния на качество модели (возможно написание статей)
решать задачи кластеризации миллиардов документов
исследовать разные факторы, которыми обладают текстовые данные
генерировать Vision данные для прокачки VLM
разрабатывать новые алгоритмы парсинга HTML и исследовать его влияние на качество модели
исследовать зависимости между pretrain данными и agentic capabilities итоговой модели
разрабатывать стабильную инфраструктуру, которая будет поддерживать проведение сотен и тысяч экспериментов над данными.

Требования

имеешь коммерческий релевантный опыт связанный с NLP или построением инфраструктуры для данных от двух лет.

Будет преимуществом:

если ты имеешь диплом ШАД/ ВШЭ Факультета компьютерных наук/ МФТИ школы прикладной математики и информатики
опыт с MapReduce системами, например, YT.

Условия

комфортный современный офис рядом с м. Кутузовская
гибридный формат работы (2 дня в офисе, 3 дня на удалёнке)
ежегодный пересмотр зарплаты, годовая премия
корпоративный спортзал и зоны отдыха
команда активных и амбициозных (играем командой в настолки в офисе или лофте, ездим на конференции (особенно, если пишем статьи))
система обучения для профессионального и карьерного развития
расширенный полис ДМС с первого дня работы и страхование для семьи
гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
вознаграждение за рекомендацию друзей в команду Сбера.

Откликнуться

NLP engineer (GigaChat Pretrain Data)

Обязанности

Требования

Условия

Похожие вакансии: Москва