Поклонная улица 3
Привет! 👋
Мы — команда, которая разрабатывает корпоративных AI-агентов и RAG-системы для умного поиска по внутренней документации. Часть наших решений уже в эксплуатации, часть — в активной разработке.
Сейчас мы ищем специалиста, который займётся качественной составляющей наших систем. Твоя задача — повышать качество RAG, выстраивать методологию оценки, тестирования, защиты, а также заниматься промпт-инжинирингом.
Важно: это прикладная позиция — мы не обучаем модели, а используем готовые через корпоративный шлюз. Так что весь фокус на инжиниринг, оценку и тонкую настройку поведения агентов.
Если тебя драйвит делать AI-решения надёжными, измеримыми и полезными — добро пожаловать в команду!
ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ:
- Повышение качества RAG-агентов на трёх направлениях: поиск по
технической документации, по нормативной базе, по бухгалтерской
документации;
- Промпт-инжиниринг и контекст-инжиниринг для всех агентов команды;
- Подготовка эталонных наборов оценки качества;
- Реализация LLM-as-a-judge как методологии автоматических
регрессионных проверок;
- Настройка защит (guards) для production-агентов: фильтры от
инъекций в промпт, валидация структуры и контента выходов,
защита от утечек ПДн, anti-hallucination механизмы;
- A/B-тестирование промптов и моделей для подбора лучших конфигураций;
- Тюнинг качества по сигналам обратной связи пользователей и
трассировкам из Langfuse.
Требования:
- Python от 2 лет коммерческой разработки;
- Практический опыт RAG-систем в продакшене: эмбеддинги, векторные
базы (Qdrant, FAISS или pgvector), переранжирование, чанкинг.
Опыт построения и поддержки как минимум одного RAG-решения от
начала до конца, не прототип;
- Практический опыт оценки качества LLM-систем: подготовка эталонных
наборов, offline-метрики, LLM-as-judge, регрессионные проверки.
Опыт работы с фреймворками оценки (Ragas, DeepEval или аналоги);
- Практический опыт настройки защит для LLM-приложений: защита от
инъекций в промпт, валидация структуры и контента выходов,
защита от утечек персональных данных;
- Опыт промпт-инжиниринга и контекст-инжиниринга в реальных
проектах: итеративная настройка промптов, structured output,
function calling;
- Понимание архитектуры RAG: стратегии нарезки документов, метаданные,
выбор моделей эмбеддингов, переранжирование, точность ссылок на
источник;
- Практический опыт работы хотя бы с одним LLM-фреймворком:
LangChain, LangGraph, PydanticAI, OpenAI API или аналоги;
- Практический опыт A/B-тестирования промптов и моделей в продакшене;
- Опыт работы с агентскими протоколами (MCP) или собственным
tool-layer для агентов;
- SQL и работа с реляционными базами на базовом уровне.