Senior/Lead Data Scientist (команда "Цифровые знания")

Дата размещения вакансии: 07.10.2025
Работодатель: СБЕР
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

Проект: «Цифровые знания» — универсальный ИИ-сервис знаний + универсальный ИИ-агент для быстрого запуска автоматизации по СОП/инструкциям

Обязанности

1.Данные и платформенный контур

  • Построить конвейер из разнородных источников (PDF/DOCX/HTML/Confluence/БЗ) с OCR и извлечением структуры (таблицы, шаги процедуры, ветвления, исключения)
  • Спроектировать машиночитаемый формат инструкции (DSL/JSON) и версии/жизненный цикл знаний (версионирование, диффы, аудит, трассировка изменений)

2.Автогенерация промтов и мультиагентные сценарии

  • Реализовать инструмент авто-формирования промтов для ролей агентов на основе структуры СОП
  • Генерировать/оркестрировать мультиагентные цепочки «из инструкции»: роли, контракты между агентами, требования к интеграциям, схемы эскалаций

3.Обучение и адаптация моделей

  • Собирать датасеты из инструкций: пары (шаг → действие/контроль/артефакт), контрпримеры, негативные семплы
  • Автоматически генерировать синтетические данные и проверки (self-play, consistency checks)

4.Прод и MLOps

  • Пайплайны ML: версия данных/моделей, CI/CD, feature/embedding store, каталоги экспериментов, калибровка
  • Логи соответствия СОП: «evidence-by-step», отчёты аудита, привязка к версии инструкции

Требования

  • 4–6+ лет в Applied ML/NLP и/или Data/ML Platform, продовые запуск и поддержка.
  • Сильный Python (типичный стек: FastAPI, asyncio, pydantic), уверенный SQL.
  • Практика с LLM/NLP: эмбеддинги, RAG, rerankers, инструменты наподобие LangChain/LlamaIndex (или свой оркестратор).
  • Векторные БД (Faiss/Milvus/pgvector/Pinecone) и классические хранилища (Postgres/ClickHouse/Elastic).
  • Опыт проектирования метрик качества для LLM-систем (retrieval/answer quality, latency, cost)

Будет плюсом:

  • Опыт с открытыми и коммерческими LLM.
  • Док-парсинг: layout/структурные модели (LayoutLM/Donut/DocTR), таблицы/диаграммы, распознавание шагов/ветвлений.
  • Онтологии/знаниевые графы (RDF/OWL), декларативные DSL, BPMN/DMN.
  • Domain: операционные центры, контакт-центры, BPO, комплаенс-процессы.
  • Инструменты наблюдаемости за LLM (Langfuse/Arize Phoenix/OpenTelemetry)
  • Опыт использования GigaChat, Kandinsky и аналогов в продуктах, навыки создания и использования AI-агентов
  • Инструментальное владение AI для анализа, генерации и автоматизации.

Условия

  • Влияние на ядро продукта: вы определяете формат инструкции, контуры RAG и обучение агентов.
  • Продуктовая роль end-to-end: от дизайна данных до прод-инференса и метрик.
  • Современный стек, свобода выбора решений, быстрые итерации
  • Возможен гибридный формат работы
  • Ежегодный пересмотр зарплаты. Годовая премия
  • Корпоративный спортзал и зоны отдыха
  • Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
  • Программа адаптации и помощь руководителя на старте
  • Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
  • Гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
  • Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • Вознаграждение за рекомендацию друзей в команду Сбера.