Vision-Language-Action (VLA)

Дата размещения вакансии: 10.06.2025
Работодатель: СБЕР
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

Команда GigaVision развивает мультимодальные и агентные модели нового поколения — GigaChat Vision и другие модели семейства GigaChat. Мы строим foundation-модели, способные решать задачи восприятия, понимания, планирования и действия в сложных средах — от симуляторов до реального мира.

Мы расширяем команду для разработки Vision-Language-Action (VLA) моделей в приложениях к робототехнике, автономному вождению и интерактивным агентам.

Обязанности

  • разрабатывать и масштабировать пайплайны претрейнинга VLA моделей на базе Vision-Language моделей (VLM)
  • подбирать и подготавливать мультимодальные датасеты (изображения, видео, текст, действия, сенсорные данные)
  • интегрировать знания и механизмы LLM/VLM в агентную архитектуру с поддержкой восприятия и действия
  • разрабатывать архитектуры, методы обучения и токенизации действий
  • проводить прикладные эксперименты, направленные на реализацию и доведение моделей до рабочего прототипа и продакшн-уровня
  • работать в связке с инженерами и специалистами предметной области для построения end-to-end решений

Требования

  • практический опыт работы с Vision-Language моделями: Flamingo, LLaVA, BLIP, IDEFICS, InternVL и др.
  • опыт претрейнинга или масштабного дообучения VLM/VLA моделей
  • глубокое понимание одной из прикладных областей: робототехника, autonomous driving, embodied AI
  • владение фреймворками: PyTorch, HuggingFace Transformers, FSDP
  • опыт построения мультимодальных пайплайнов (видео, изображения, текст, действия)
  • знание подходов к обучению агентов по демонстрациям и с использованием мультимодальных сигналов
  • умение работать с распределённым обучением и inference пайплайнами

Будет плюсом

  • опыт работы с симуляторами (CARLA, Isaac Gym, Habitat, MuJoCo)
  • знание современных подходов к action modeling, video-language alignment, temporal reasoning
  • опыт внедрения моделей в прототипы и взаимодействия с downstream-сценариями
  • опыт с reinforcement learning для мультимодальных агентов

Условия

  • комфортный современный офис рядом с м.Кутузовская
  • возможность выбрать удобный график – офис/гибрид и также работать на удаленке три месяца в год
  • офис/гибридный формат работы
  • ежегодный пересмотр зарплаты, годовая премия
  • корпоративный спортзал и зоны отдыха
  • более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
  • программа адаптации и помощь руководителя на старте (для Junior позиций)
  • расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
  • льготная ипотека для каждого сотрудника
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера.
  • корпоративная пенсионная программа
  • отсутствие строгого дресс-кода.