Vision-Language-Action (VLA)

Дата размещения вакансии: 10.06.2025

Работодатель: СБЕР

Уровень зарплаты:

з/п не указана

Город:

Москва

Требуемый опыт работы:

От 3 до 6 лет

Команда GigaVision развивает мультимодальные и агентные модели нового поколения — GigaChat Vision и другие модели семейства GigaChat. Мы строим foundation-модели, способные решать задачи восприятия, понимания, планирования и действия в сложных средах — от симуляторов до реального мира.

Мы расширяем команду для разработки Vision-Language-Action (VLA) моделей в приложениях к робототехнике, автономному вождению и интерактивным агентам.

Обязанности

разрабатывать и масштабировать пайплайны претрейнинга VLA моделей на базе Vision-Language моделей (VLM)
подбирать и подготавливать мультимодальные датасеты (изображения, видео, текст, действия, сенсорные данные)
интегрировать знания и механизмы LLM/VLM в агентную архитектуру с поддержкой восприятия и действия
разрабатывать архитектуры, методы обучения и токенизации действий
проводить прикладные эксперименты, направленные на реализацию и доведение моделей до рабочего прототипа и продакшн-уровня
работать в связке с инженерами и специалистами предметной области для построения end-to-end решений

Требования

практический опыт работы с Vision-Language моделями: Flamingo, LLaVA, BLIP, IDEFICS, InternVL и др.
опыт претрейнинга или масштабного дообучения VLM/VLA моделей
глубокое понимание одной из прикладных областей: робототехника, autonomous driving, embodied AI
владение фреймворками: PyTorch, HuggingFace Transformers, FSDP
опыт построения мультимодальных пайплайнов (видео, изображения, текст, действия)
знание подходов к обучению агентов по демонстрациям и с использованием мультимодальных сигналов
умение работать с распределённым обучением и inference пайплайнами

Будет плюсом

опыт работы с симуляторами (CARLA, Isaac Gym, Habitat, MuJoCo)
знание современных подходов к action modeling, video-language alignment, temporal reasoning
опыт внедрения моделей в прототипы и взаимодействия с downstream-сценариями
опыт с reinforcement learning для мультимодальных агентов

Условия

комфортный современный офис рядом с м.Кутузовская
возможность выбрать удобный график – офис/гибрид и также работать на удаленке три месяца в год
офис/гибридный формат работы
ежегодный пересмотр зарплаты, годовая премия
корпоративный спортзал и зоны отдыха
более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
программа адаптации и помощь руководителя на старте (для Junior позиций)
расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
льготная ипотека для каждого сотрудника
бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
вознаграждение за рекомендацию друзей в команду Сбера.
корпоративная пенсионная программа
отсутствие строгого дресс-кода.

Откликнуться

Vision-Language-Action (VLA)

Обязанности

Требования

Условия

Похожие вакансии: Москва