Lead Data Scientist (Гео и Графы)

Дата размещения вакансии: 25.11.2024
Работодатель: СБЕР
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

Наши проекты:

Эмбеддинги юридических лиц:

  • Обучение моделей эмбеддингов ЮЛ на основе различных источников данных: транзакции, кликстримы, диалоги, граф связей и т.д. Обучение универсальных мультимодальных моделей эмбеддингов. Помощь бизнес-блокам в адаптации и пилотировании эмбеддингов в бизнес-моделях банка.
  • Изучение и внедрение Foundation model в доменах event-sequences и graphs.
  • Взаимодействие с исследовательскими командами AI Lab и Sber AI.

Карта влияния ЮЛ:

  • Построение витрин связей ЮЛ-ФЛ, определение ролей ФЛ в ЮЛ на основе внутренних и внешних источников. Построение датасета для обучения моделей, разметка ролей. Дизайн и обучение модели определения ролей ФЛ в ЮЛ.
  • Создание единого графа ЮЛ-ФЛ, обучение моделей на едином графе, построение эмбеддингов ЮЛ/ФЛ.

Логистические цепочки:

  • Поиск транзакционных связей ЮЛ/ИП, построение графа транзакционных связей. Выделение устойчивых цепочек (сообществ) для решения различных бизнес-задач.

Обязанности

  • Коммуникации с заказчиком, проработка требований, перевод требования на язык ML, выбор подходов к реализации;
  • Работа со структурированными и неструктурированными данными: поиск внутренних и внешних источников, сбор и анализ данных, проверка гипотез;
  • Проведение RND для выбора лучших алгоритмов;
  • Построение и поддержка аналитических и предиктивных моделей (Python + Spark + Sklearn + LGBM), нейросетевых моделей: GNN (графовые нейронные сети), RNN, Transformers;
  • Обеспечение документирования результатов моделирования для передачи на валидацию;
  • Подготовка скриптов для вывода моделей в ПРОМ;
  • Постановка требований для Data Engineer по разработке новых витрин/объектов.

Требования

  • Хорошее знание алгоритмов машинного обучения, нейронных сетей, python-библиотек для работы с ML/DL (Sklearn, LGBM, XGBoost, Pytorch), SQL;
  • Знание принципов построения моделей на графах, последовательностях событий, NLP;
  • Опыт промышленного внедрения моделей, работы с распределенным хранилищем данных (Hadoop, Spark);
  • Понимание процессов ETL, ELT;
  • Опыт наставничества/менторства.

Будет плюсом:

  • Опыт использование UDF для PySpark, особенности написания кода для стека Hadoop;
  • Знание особенностей программирования в распределённых системах;
  • Опыт работы с NoSQL базами данных;
  • Распределенное обучение моделей на ресурсах GPU(А100/V100)/HGX;
  • Знание SOTA алгоритмов в области AI.

Условия

  • Формат работы - офис (ст.м.Кутузовская);
  • Ежегодный пересмотр зарплаты и годовая премия;
  • Корпоративный спортзал и зоны отдыха;
  • Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития;
  • Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа;
  • Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров;
  • Вознаграждение за рекомендацию друзей в команду Сбера.