з/п не указана
Москва
От 3 до 6 лет
Ищем Middle AI Engineer для создания нативных омнимодальных архитектур — новых способов кодирования и совместного обучения в доменах изображений, аудио, видео и т.д.
Обязанности
- разработка принципиально новых мультимодальных представлений и кодирования информации (vision, audio, video, text)
- создание универсальных энкодеров и shared latent spaces
- Vision-Language-Action (VLA) архитектуры и стрим взаимодействия с роботами
- исследование end-to-end омнимодальных моделей и обучение на масштабных мультимодальных датасетах.
Требования
- отличный Python 3, опыт с PyTorch, bash, git, Docker, dvc
- глубокое понимание representation learning и multimodal learning
- опыт с vision, audio и video моделями
- понимание трансформеров, contrastive learning, joint embeddings
- умение быстро разбирать и воспроизводить идеи из научных статей.
Будет плюсом
- опыт с VLA / Embodied AI / Robotics
- знание self-supervised и multimodal pretraining подходов
- опыт работы с streaming video/audio
- публикации, open-source вклад или исследовательский опыт.
Условия
- комфортный современный офис рядом с м. Кутузовская
- гибрид (Москва, СПБ)
- годовая премия
- корпоративный спортзал и зоны отдыха
- расширенный ДМС + страхование для семьи
- ипотека для сотрудников выгоднее (-1/3 от текущей процентной ставки)
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера