Подсосенский переулок 23с5
MWS AI — это часть экосистемы МТС Web Services, где создаются AI-решения будущего.
Мы разрабатываем передовые системы голосового перевода (voice-to-voice translation), способные мгновенно преобразовывать речь с одного языка в речь на другом — без утраты интонации, темпа и естественности. Наряду с этим, наши голосовые ассистенты и чат-боты отвечают на запросы клиентов. Объединяя сильнейших разработчиков, суперкомпьютерную инфраструктуру и прорывные исследования, мы делаем коммуникацию между людьми и бизнесом свободной от языковых барьеров.
Чем предстоит заниматься:
- Проводить исследования в области voice-to-voice translation, speech representation learning, multilingual TTS/ASR и языковой инвариантности голоса
- Разрабатывать и оптимизировать архитектуры моделей, способных сохранять говорящего, интонацию и стилистику речи при переводе
- Проектировать и реализовывать real-time streaming pipelines для голосового перевода с поддержкой chunked/streaming inference
- Проводить масштабные эксперименты, оценивать качество моделей по объективным и субъективным метрикам (например, MOS), и подавать результаты на ведущие конференции (Interspeech, NeurIPS, ACL, ICML, ICLR и др.)
- Работать в тесной связке с другими командами MWS AI
Что мы ожидаем от кандидата:
- Глубокое понимание методов глубокого обучения, особенно в контексте обработки речи (ASR, TTS, VC, speech translation)
- Опыт работы с нейросетевыми архитектурами для речи: Conformer, FastSpeech, Whisper, MAVE и др.
- Опыт работы с аудиоданными: форматы, препроцессинг, выравнивание, аугментация
- Опыт проектирования low-latency inference pipelines: streaming input/output, chunked processing, dynamic batching, memory pooling
- Готовность заниматься high-risk, high-impact исследованиями, где отсутствуют готовые решения и бенчмарки
- Желание публиковать научные работы и вносить вклад в развитие продуктов компании
- Хорошее знание английского языка (устная и письменная речь) на уровне не ниже B2
Преимуществом будут:
- Опыт работы с многоязычными аудио-датасетами, особенно с русским языком
- Знание инструментов для обработки и анализа речи: librosa, torchaudio, ESPnet, speechbrain, fairseq
- Опыт в оптимизации инференса моделей
- Публикации на топ-конференциях по речевым технологиям и ИИ (Interspeech, NeurIPS, ACL, EMNLP, ICLR и др.)
- Участие в open-source проектах, связанных с речью
Что мы предлагаем:
-
Атмосферу стартапа и участие в инновационных проектах в области AI
- Комфортный офис в 5 минутах пешком от метро Курская/Чкаловская (Москва)
- Медицинскую страховку с 1 месяца, включающую стоматологию, страхование жизни и здоровья в поездках за рубеж. А еще можно застраховать родственников с корпоративной скидкой
- Компенсацию мобильной связи
- Участие во внешних IT конференциях и обучающих программах
- Полезные курсы и вебинары в корпоративном университете и электронные библиотеки
- Единую подписку МТС Premium — KION light в онлайн-кинотеатре KION, сервис МТС Music, 30 дней бесплатного пользования подпиской OZON Premium
- Скидки и предложения от партнеров на фитнес, занятия английским и прочее