Lead AI Voice / MLOps Engineer (Streaming Audio / vLLM)
Мы — DeepTech стартап. Мы строим собственный in-house конвейер потокового голосового ИИ (ASR ➔ LLM ➔ TTS) сверхнизкой задержки на Nvidia GPU-кластерах.
Мы не делаем очередную «обертку» над OpenAI API или Vapi. Мы создаем свой проприетарный движок. Днем наша система обслуживает реальный сектор SMB (AI-администраторы по SIP-телефонии для малого бизнеса), а ночью интегрируется в качестве бэкенда для умных голосовых NPC в крупнейшие игровые проекты ( пиковый онлайн 14,000+).
Инфраструктуру со стороны DevOps, K8s и автомасштабирования нам помогает выстраивать и валидировать действующий архитектор из Apple. Нам нужен человек, который заберет на себя сердце продукта — ML-пайплайн и задержки.
Главный технический вызов (Твой KPI): Time-to-First-Audio (TTFA) в реальном диалоге с ботом должен составлять строго менее 1000 миллисекунд.
Что нужно будет делать:
-
Развернуть и оптимизировать streaming-пайплайн на GPU (A6000/A100/H100).
-
Слух (ASR): Настроить потоковый Speech-to-Text (Faster-Whisper / Deepgram on-prem).
-
Мозг (LLM): Развернуть Llama 3 (8B) или аналоги через vLLM / TensorRT с минимальным Time-to-First-Token.
-
Голос (TTS): Внедрить быстрый потоковый синтез речи (XTTSv2, OpenVoice или аналоги).
-
Оркестрация: Написать жесткую логику VAD (Voice Activity Detection). Бот должен моментально замолкать при перебивании, но при этом не должно быть пауз в 2 секунды между репликами.
-
Упаковать всё это в production-ready Docker-контейнеры и отдать нам быстрый локальный API.
Наш идеальный кандидат:
-
Уверенно пишет на Python (C++ будет жирным плюсом для оптимизаций).
-
Понимает, как на низком уровне работает память видеокарт (VRAM, CUDA, TensorRT).
-
Имеет реальный опыт работы с vLLM / llama.cpp в продакшене.
-
Понимает основы телефонии и стриминга (WebRTC, SIP, Websockets).
-
Не боится слова "оптимизация" и умеет считать миллисекунды в логах.
-
Самостоятелен: вам не нужен микроменеджмент, вы берете задачу и приносите работающий "черный ящик".
Условия:
-
Оплата: в USD или крипте (USDT), если вы находитесь вне РФ, либо обсуждаем удобные варианты.
-
Полная удаленка, асинхронный формат работы (команда в часовом поясе Калифорнии / PST, но мы не заставляем сидеть на ночных созвонах).
-
Нулевая бюрократия. Никаких Jira-билетов ради билетов — работаем спринтами в Linear на результат.
-
Доступ к топовым GPU-мощностям для любых тестов.
В сопроводительном письме указывайте тех стэк, опыт работы.