Data Scientist NLP/Audio

Дата размещения вакансии: 07.10.2024
Работодатель: СБЕР
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

Мы ищем специалиста Deep Learning в disrupt направление. Нам нужны специалисты в области NLP и работы с аудио (ASR, TTS).

Вам предстоит участвовать в развитии системы форд-мониторинга Сбербанка, которая обеспечивает защиту клиентов банка во всех каналах обслуживания от мобильных приложений и покупок в интернет до визитов клиентов в офисы.

Нам уже есть чем гордиться, но мы развиваемся и не стоим на месте

17th Annual 2021 Cyber Security Global Excellence Awards winners.

Fraud Prevention GOLD WINNER – SberBank Anti-Fraud System (https://globeeawards.com)

Fraud Prevention Editor’s Choice – SberBank (https://cyberdefenseawards.com)

Мы принимаем активное участие в развитии этой системы и сосредоточены на разработке и внедрении AI-моделей по выявлению мошенничества. У нас ты сможешь поработать с действительно большими объемами данных, широким перечнем передовых технологий и сделать значимый вклад в борьбу с мошенничеством в стране.

Обязанности

· Исследование новых архитектур и подходов, апробирование на реальных данных

· Работа с собственной LLM GigaChat. Имплементация LLM для решения прикладных задач

· Обработка аудио-потока: Speech-to-Text и Text-to-Speech

· Построение высоконагруженных решений, основанных на DL-моделях

а также

· Мониторинг и регулярный контроль качества работающих в пром. моделей;

· Анализ доступных источников данных и информации в них, оценка качества для решения задач;

· Обсуждение задач и методов их решения совместно с фрод-аналитиками и бизнес-заказчиками, формулирование гипотез и их проверка;

· Построение воспроизводимых и переиспользуемых решений для работы с данными и моделями

Требования

· Хорошие знания Python 3

· Знание PyTorch, опыт полного цикла разработки DL моделей.

· Знание подходов обработки последовательностей: RNN, Transformer.

· Опыт использования библиотека анализа данных и построения ML моделей на Python (pandas/dask, xgboost/lightgbm/catboost, sklearn, …), понимание особенностей и границ применимости;

· Знание мат. статистики и теории вероятностей

· Знание Git

· Знание английского языка (чтение документации и статей)

· Знание Spark/PySpark, Hive

· Знание библиотек torch-audio, pyaanote, librosa, nemo.

· Опыт обработки последовательностей, знание продвинутых подходов.

· Знакомы подходы tts, stt, diarisation.

· Опыт взаимодействия с LLM, SFT.

· Знание подходов распараллеливания вычислений.

Условия

  • Молодая и активная команда, состоящая преимущественно из DS и DE.
  • Наличие мощного кластера и сред разработки, включая GPU
  • Возможность поработать с действительно большими объемами данных и сделать значимый вклад в борьбу с мошенничеством в стране