Кутузовский проспект 32
Ищем Middle ML Engineer/Researcher в исследовательскую команду для разработки омнимодальных решений в домене аудио, в крупном проекте по созданию систем искусственного интеллекта нового поколения.
Обязанности
● Исследование технологий для работы с разными модальностями аудио: речь, шумы,
музыка, звуковые эффекты
● Интеграция аудио, текста и визуальных модальностей в единую архитектуру
● Мультимодальный reasoning и синхронизация потоков (audio–text–vision)
● Исследование и имплементация state-of-the-art подходов (end-to-end, transformers, multimodal LLMs, diffusions)
Требования
- Отличный Python 3, опыт с PyTorch, bash, git, Docker, dvc, HF Transformers
- Хорошее понимание ASR, TTS, DSP ML, speech & audio processing
- Понимание трансформеров, attention-механизмов, KV-cache, diffusion
- Навыки работы с большими датасетами аудио
- Понимание MLOps-практик: мониторинг моделей, дрейф данных, CI/CD
Будет плюсом:
Опыт работы в доменах речи, музыки, с голосовыми ассистентами
Опыт работы с диффузионными и авторегрессионными архитектурами для аудио/музыки
Опыт работы с streaming / real-time системами
Знание мультимодальных LLM / VLM / Audio-LM
Публикации или исследовательский бэкграунд в соответствующих областях
Условия
- комфортный современный офис рядом с м. Кутузовская
- гибридный формат работы
- ежегодный пересмотр зарплаты, годовая премия от 3х окладов
- большой спортзал и зоны отдыха
- система обучения для профессионального и карьерного развития
- расширенный полис ДМС с первого дня работы и страхование для семьи
- программа ипотеки для сотрудников со скидкой -1/3 от текущей ставки
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.