Data scientist (NLP) senior

Дата размещения вакансии: 14.11.2025
Работодатель: Платформа ОФД
Уровень зарплаты:
от 300000 до 350000 RUR
Город:
Москва
Усачёва улица 33с1
Требуемый опыт работы:
От 3 до 6 лет

Платформа ОФД - продуктовая IT- компания, крупнейший в России оператор фискальных данных. № 1 в рейтинге ОФД по данным CNews, резидент Сколково.

Мы анализируем рынок российского ритейла на данных из чеков в режиме реального времени. Ежедневно мы обрабатываем 60 млн кассовых чеков - каждый 3-й чек, пробиваемый в России. В нашей базе 4,7 млрд уникальных названий товаров.

Наша команда DS:

Строит NLP-ядро решения для автоматической категоризации товарных строк из чеков и извлечения атрибутов, конечной целью которого является восстановление товарной позиции до SKU (полное единое представление товара из чека со всеми присущими ему атрибутами). Ввиду уникальности экспертизы работы с языковыми моделями в обязанности команды также входит внедрение AI-агентов в процессы смежных подразделений компании

Ваша роль в команде и основные задачи:

- Ведение проекта: от сбора ТЗ и формирования архитектуры ML-решения до реализации и деплоя
- Покрытие решений метриками: от этапа экспериментов и разработки до мониторинга на проме
- Участие в развитии методологии работы команды

Требования к кандидату:

- Трансформеры в NLP: коммерческий опыт обучения и эксплуатации
- Векторные представления + Retrieval/Re-rank
- Информационное извлечение в ритейле (NER, нормализация, линковка)

- Ведение проекта: от сбора ТЗ и формирования архитектуры ML-решения до реализации и деплоя
- Покрытие решений метриками: от этапа экспериментов и разработки до мониторинга на проме
- Участие в развитии методологии работы команды

Желателен опыт работы с LLM (инференс/агенты): fine-tuning, дообучение, дистилляция, квантование

Стек, который мы используем:

Данные:
1. Обширная ресерч-база, представленная миллиардами уникальных строк чековых наиманований, охватывающая весь возможный спектр отраслей
2. Челендж в виде обработки миллионов уникальных наименований ежедневно
3. Шумные нейминги, лонг-тейл категорий, постоянный поток новых формулировок/синонимов

Инфраструктура:
1. Разделение серверов на r&d и пром
2. On-prem GPU для обучения и инференса нейросетевых моделей различной архитектуры, включая LLM
3. Хранилище данных на Hadoop

Как проходит найм:

Интервью-знакомство с TL команды DS
Техническая секция или Выполнение тестового задания на выбор

Мы предлагаем условия:

  • Комфортный офис с relax зоной близко от м. Спортивная / МЦК Лужники
  • График работы гибридный: офис 1 раз в неделю по пятницам. Гибкое время начала рабочего дня
  • Трудоустройство по ТК РФ, белая заработная плата
  • ДМС, включая госпитализацию, скорую и стоматологию
  • Насыщенную корпоративную жизнь
  • Обучение и семинары за счет компании