Data scientist (NLP)

Дата размещения вакансии: 18.09.2024
Работодатель: Платформа ОФД
Уровень зарплаты:
от 170000 до 200000 RUR
Город:
Москва
Усачёва улица 33с1
Требуемый опыт работы:
От 1 года до 3 лет

Платформа ОФД - продуктовая IT- компания, крупнейший в России оператор фискальных данных. № 1 в рейтинге ОФД по данным CNews, резидент Сколково.

Мы анализируем рынок российского ритейла на данных из чеков в режиме реального времени. Ежедневно мы обрабатываем 60 млн кассовых чеков - каждый 3-й чек, пробиваемый в России. В нашей базе 2 млрд уникальных названий товаров.

Мы предлагаем условия:

  • Комфортный офис с relax зоной близко от м. Спортивная / МЦК Лужники
  • График работы гибридный: офис 1-2 раза в неделю. Гибкое время начала рабочего дня
  • Трудоустройство по ТК РФ, белая заработная плата
  • ДМС, включая стоматологию, госпитализацию и скорую
  • Насыщенную корпоративную жизнь
  • Обучение и семинары за счет компании
  • Скидки от партнеров, льготная ипотека от Сбера

Наша команда DS занимаются следующим:

- Классические задачи: классификация/тематическое моделирование, NER, NEL, задачи поиска. Все не так просто, так как объемы большие, данные сильно вариативны

- Нестандартные задачи: кластеризация / “как объединить
магазины в полигоны по три, используя нечеткий спуск по графу” / “как отсортировать данные, чтобы ускорить разметку” / “как матчить млрд-ы id-шников по timestamp и total_sum”

Почему у нас может быть интересно/полезно?

• Cовременный стек, можно много чему научиться
Четко сформулированные задачи и метрики оценивания моделей
Комфортная атмосфера

• Развитая инфраструктура: есть несколько кластеров Hadoop, у DS есть
несколько мощных машин, GPU делают бр-бр

• Некоторые задачи, действительно крутые, например, мы обучаем LLM-ы и всегда держим нос по ветру в плане SOTA
(у нас хватает и данных, и ресурсов, т.к тексты короткие)

• Нужно делать мало sql и немного уметь в Spark (или очень хотеть научиться)

Стек, который мы используем:
linux, git, bash
(DS стек): jupyterhub, python, стандартный python стек (pandas, numpy, sklearn, matplolib, …), fasttext, torch, HuggingFace, transformers, BERT, LLM, MlFlow, Hadoop, Spark, Hive, Zeppelin/IntelliJ, AirFlow

Откликайся, если ты:

  • Работаешь в качестве DS от года
  • Знаешь Python и части DS стека
  • Пишешь красивый код
  • Понимаешь, как устроены модели
  • Имеешь в/о или обучаешься на последнем курсе вуза

Будет плюсом, если ты:

  • работаешь в DL и умеешь читать статьи
  • имеешь опыт в классическом машинном обучении и практический опыт решения задач NLP
  • знаешь, как работать в Zeppelin
  • умеешь в Spark или очень хотеть научиться