Разработчик / Инженер локальной RAG‑LLM системы

Дата размещения вакансии: 03.10.2025
Работодатель: Брейни Бокс
Уровень зарплаты:
от 130000 до 300000 RUR
Город:
Барнаул
улица Короленко 75
Требуемый опыт работы:
От 1 года до 3 лет

Обязанности:

  • Спроектировать и собрать прототип оффлайн RAG для корпуса школьных учебников.
    Организовать пайплайн данных: конвертация (PDF/DOCX → текст)(опционально),
    очистка(опционально), предобработка, чанкинг.
    Выбрать и настроить векторное хранилище (например, ChromaDB / FAISS / Qdrant /
    Weaviate).
    Подобрать модель эмбеддингов и построить ретривер; при необходимости —
    добавить переранжирование.
    Интегрировать локальную LLM в формате .gguf (через llama.cpp / llama‑cpp‑python) в
    цепочку: запрос → поиск → формирование промпта → генерация ответа.
    Определить и измерять метрики: точность/полнота поиска (Precision/Recall@k, MRR),
    релевантность ответов, доля галлюцинаций.
    Исследовать целесообразность fine‑tuning (LoRA/QLoRA); при подтверждении пользы
    — запустить контролируемые эксперименты.
    Подготовить документацию и инструкции по развёртыванию, обновлению и
    эксплуатации.

Требования:

  • Требования — Hard skills
    Практический опыт с LLM и локальным инференсом.
    Глубокое понимание RAG (ретривер, генератор, контекстные окна, подбор
    негативов, переранжирование).
    Опыт работы с векторными БД: ChromaDB, FAISS, Qdrant, Weaviate (одна или
    несколько).
    Опыт с quantized‑моделями и стеком ggml / llama.cpp; понимание формата .gguf.
    NLP‑базис: чанкинг, токенизация, эмбеддинги (например, sentence‑transformers).
    Уверенный Python и экосистема (poetry/venv, pytest, logging, CLI).
    Опыт/понимание fine‑tuning (желательно LoRA/QLoRA).•
    Базовые навыки Linux и работы с CLI, GPU/CPU настройка.
  • Требования — Подход и Soft skills
    Исследовательский подход: постановка гипотез, A/B‑тесты, строгая оценка качества
    ретривера и генератора.
    Итеративность: идти маленькими шагами с измеримыми улучшениями, а не
    «большой перезапуск обучения».
    Фокус на данных: качество корпуса и поиска — первично, размер модели —
    вторичен.
    Целеполагание: «Зачем мы это делаем?» — перед каждым этапом дообучения

Условия:

  • Формат работы: удалённо / гибридно (по договорённости).
    График: гибкий, ориентирован на результат.
    Компенсация: конкурентная, обсуждается с успешными кандидатами.
    Тестовое задание: мини‑прототип на небольшом датасете (1–2 учебника) + короткий
    отчёт по метрикам. (с возмещением затрат на облачные вычислительные мощности)
    Процесс: скрининг → техническое интервью → тестовое → финальное интервью →
    оффер