AI/ML Engineer

Дата размещения вакансии: 04.06.2026
Работодатель: СберСпасибо
Уровень зарплаты:
з/п не указана
Город:
Москва
Поклонная улица 3
Требуемый опыт работы:
От 1 года до 3 лет

Привет! 👋
Мы — команда, которая разрабатывает корпоративных AI-агентов и RAG-системы для умного поиска по внутренней документации. Часть наших решений уже в эксплуатации, часть — в активной разработке.
Сейчас мы ищем специалиста, который займётся качественной составляющей наших систем. Твоя задача — повышать качество RAG, выстраивать методологию оценки, тестирования, защиты, а также заниматься промпт-инжинирингом.
Важно: это прикладная позиция — мы не обучаем модели, а используем готовые через корпоративный шлюз. Так что весь фокус на инжиниринг, оценку и тонкую настройку поведения агентов.
Если тебя драйвит делать AI-решения надёжными, измеримыми и полезными — добро пожаловать в команду!

ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ:

- Повышение качества RAG-агентов на трёх направлениях: поиск по
технической документации, по нормативной базе, по бухгалтерской
документации;

- Промпт-инжиниринг и контекст-инжиниринг для всех агентов команды;

- Подготовка эталонных наборов оценки качества;

- Реализация LLM-as-a-judge как методологии автоматических
регрессионных проверок;

- Настройка защит (guards) для production-агентов: фильтры от
инъекций в промпт, валидация структуры и контента выходов,
защита от утечек ПДн, anti-hallucination механизмы;

- A/B-тестирование промптов и моделей для подбора лучших конфигураций;

- Тюнинг качества по сигналам обратной связи пользователей и
трассировкам из Langfuse.

​​​​​​Требования:

- Python от 2 лет коммерческой разработки;

- Практический опыт RAG-систем в продакшене: эмбеддинги, векторные
базы (Qdrant, FAISS или pgvector), переранжирование, чанкинг.
Опыт построения и поддержки как минимум одного RAG-решения от
начала до конца, не прототип;

- Практический опыт оценки качества LLM-систем: подготовка эталонных
наборов, offline-метрики, LLM-as-judge, регрессионные проверки.
Опыт работы с фреймворками оценки (Ragas, DeepEval или аналоги);

- Практический опыт настройки защит для LLM-приложений: защита от
инъекций в промпт, валидация структуры и контента выходов,
защита от утечек персональных данных;

- Опыт промпт-инжиниринга и контекст-инжиниринга в реальных
проектах: итеративная настройка промптов, structured output,
function calling;

- Понимание архитектуры RAG: стратегии нарезки документов, метаданные,
выбор моделей эмбеддингов, переранжирование, точность ссылок на
источник;

- Практический опыт работы хотя бы с одним LLM-фреймворком:
LangChain, LangGraph, PydanticAI, OpenAI API или аналоги;

- Практический опыт A/B-тестирования промптов и моделей в продакшене;

- Опыт работы с агентскими протоколами (MCP) или собственным
tool-layer для агентов;

- SQL и работа с реляционными базами на базовом уровне.