Data Scientist в проект GigaChat

Дата размещения вакансии: 26.08.2024

Работодатель: СБЕР

Уровень зарплаты:

з/п не указана

Город:

Москва
Кутузовский проспект 32к1

Требуемый опыт работы:

От 3 до 6 лет

Мы ищем Data Scientist для работы над данными pretrain языковых моделей типа ChatGPT Куда: прод команда больших языковых моделей в SberDevices

Задачи:

майнить данные: писать и запускать код для сбора данных с разных платформ (где есть много данных, которых нет в Common Crawl)
собирать параллельные корпусы текста для машинного перевода
очищать данные: обрабатывать сырые данные из интернета, выкидывать рекламные блоки, непонятные блоки, использовать существующие или обучать новые языковые модели для решения подобных задач
убирать дубликаты: оптимизировать объем данных для экономии ресурсов на обучение, удалять дубли и схожий контент, использовать существующие или обучать новые языковые модели для решения подобных задач

Требования:

Условия:

масштабные, сложные и разнообразные задачи, находящиеся на острие инноваций
сильная команда отзывчивых профи и гуру, которые всегда помогут
текущий объем датасета 4Тб текста, будет намного больше
фидбек и возможность увидеть результаты своей работы в продукте
своя digital-платформа для развития ключевых IT-компетенций, внутренние и внешние конференции и проф. сообщества Сбера
много корпоративных плюшек
расширенная программа ДМС (возможность подключения родственников), страхование жизни
специальные условия по кредитам/ипотеке, скидки от компаний-партнёров
знаменитый офис на Кутузовском проспекте с парковкой, спортзалом, массажными креслами и возможностью выбора формата работы (офис или гибрид)
атмосфера стартапа и надёжность гиганта.

Откликнуться