ML/DL Engineer (AUDIO)

Дата размещения вакансии: 11.11.2025
Работодатель: VICTORY group
Уровень зарплаты:
от 100000 до 250000 RUR
Город:
Екатеринбург
Требуемый опыт работы:
От 1 года до 3 лет

Добрый день!

Мы "VICTORY group" являемся одним из лидирующих рекламных агентств России. Наши клиенты — это крупнейшие автохолдинги, застройщики, медицинские центры и другие компании различных отраслей.

Более 15 000 компаний каждый месяц доверяют нам!

Ведём работу по двум направлениям:

1. Управление репутацией

Мы более пяти лет работаем в сфере репутационного маркетинга в интернете.
Лучше всех в России понимаем, как работать с негативом.
Помогаем в создании положительного образа компании с гарантией.

2. Лидогенерация

Можем найти заинтересованных клиентов в любой сфере.
Применяем инновационные решения в интернет-маркетинге, показываем лучшие результаты на рынке.

Обязанности:

  • Разработка и обучение ML-моделей для реального времени для классификации аудио (человек/робот) по первым секундам звонка;
  • Создание и оптимизация пайплайна инференса с задержками в десятки миллисекунд;
  • Построение и поддержка пайплайна подготовки датасетов (агрегация, аугментация, работа с "грязными" данными).
  • Разработка модуля для обнаружения начала речи и отсечения гудков;
  • Реализация контура обратной связи (Human-in-the-loop / Reinforcement Learning) для непрерывного дообучения модели на основе ошибок;
  • Интеграция ML-моделей в продакшен-окружение (написание сервисов на FastAPI/gRPC);
  • Оптимизация моделей для производительности (батчинг, квантизация, использование ONNX/TensorRT);
  • Ведение технической документации.

Требования:

  • Опыт работы с аудио/спичем: VAD, ASR, классификация аудио, Speaker Detection, Keyword Detection;
  • Умение работать с сырым аудио (гудки, шумы, нечёткое начало речи);
  • Уверенное владение PyTorch (умение не только запускать, но и писать и обучать модели);
  • Опыт оптимизации пайплайна инференса для реального времени (задержки, батчинг);
  • Опыт подготовки датасетов: агрегация, аугментация, работа с грязными данными;
  • Понимание онлайн-сценариев (streaming inference);
  • Опыт или глубокое понимание построения петель Reinforcement Learning / Active Learning для непрерывного дообучения моделей.

Будет плюсом:

  • Опыт с конкретными инструментами: WebRTC VAD, Silero VAD, Whisper, Nemo, Vosk;
  • Опыт оптимизации для продакшена: ONNX / TensorRT / TorchScript;
  • Опыт интеграции с бэкендом: FastAPI/gRPC;
  • Опыт с телефонией и спецификой телефонного аудио;
  • Опыт построения Active Learning Pipeline.

Условия:

  • ​​​​​​​​​​​​​​​​​​​​​Удаленный формат работы, полный рабочий день;
  • Уровень заработной платы от 100 000 рублей (25 000 - 50 000 руб/неделя), выплаты каждую неделю;
  • Перспектива профессионального и карьерного роста.