Middle ML Researcher (Audio, Omnimodal)

Дата размещения вакансии: 06.02.2026
Работодатель: СБЕР
Уровень зарплаты:
з/п не указана
Город:
Москва
Кутузовский проспект 32
Требуемый опыт работы:
От 1 года до 3 лет

Ищем Middle ML Engineer/Researcher в исследовательскую команду для разработки омнимодальных решений в домене аудио, в крупном проекте по созданию систем искусственного интеллекта нового поколения.

Обязанности

●​ Исследование технологий для работы с разными модальностями аудио: речь, шумы,

музыка, звуковые эффекты

●​ Интеграция аудио, текста и визуальных модальностей в единую архитектуру

●​ Мультимодальный reasoning и синхронизация потоков (audio–text–vision)

●​ Исследование и имплементация state-of-the-art подходов (end-to-end, transformers, multimodal LLMs, diffusions)

Требования

  • Отличный Python 3, опыт с PyTorch, bash, git, Docker, dvc, HF Transformers
  • Хорошее понимание ASR, TTS, DSP ML, speech & audio processing
  • Понимание трансформеров, attention-механизмов, KV-cache, diffusion
  • Навыки работы с большими датасетами аудио
  • Понимание MLOps-практик: мониторинг моделей, дрейф данных, CI/CD

Будет плюсом:

Опыт работы в доменах речи, музыки, с голосовыми ассистентами

Опыт работы с диффузионными и авторегрессионными архитектурами для аудио/музыки

Опыт работы с streaming / real-time системами

Знание мультимодальных LLM / VLM / Audio-LM

Публикации или исследовательский бэкграунд в соответствующих областях

Условия

  • комфортный современный офис рядом с м. Кутузовская
  • гибридный формат работы
  • ежегодный пересмотр зарплаты, годовая премия от 3х окладов
  • большой спортзал и зоны отдыха
  • система обучения для профессионального и карьерного развития
  • расширенный полис ДМС с первого дня работы и страхование для семьи
  • программа ипотеки для сотрудников со скидкой -1/3 от текущей ставки
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера.