LLM инженер

Дата размещения вакансии: 04.12.2025

Работодатель: Бреви Ману

Уровень зарплаты:

з/п не указана

Город:

Москва
Беговая улица 2

Требуемый опыт работы:

От 3 до 6 лет

О проекте:
Мы создаем интуитивно понятное и современное веб-приложение, которым ежедневно пользуются клиенты и юристы. Ваша задача — помочь нам сделать его еще лучше, быстрее и удобнее.

1. Основной стек

Python & Deep Learning: Знание Python, опыт работы с PyTorch и экосистемой Hugging Face (Transformers, Datasets, Tokenizers).
Опыт Fine-Tuning (SFT): Умение дообучать модели (Llama 3, Mistral, Qwen) на специфических юридических текстах с использованием методов эффективного обучения (PEFT, LoRA/QLoRA).
Продвинутый RAG :
- Построение пайплайнов поиска по базе знаний.
- Понимание того, как работает Hybrid Search (векторный + полнотекстовый поиск).
- Опыт работы с Reranking-моделями (например, BGE-Reranker, Cohere) для повышения релевантности найденных документов.
Векторные базы данных: Опыт работы с Qdrant, Weaviate, Milvus или Elasticsearch/OpenSearch.

2. Работа с данными и контекстом

Processing Long Context: Понимание проблем длинного контекста (Lost-in-the-Middle phenomenon) и умение работать с длинными документами (chunking strategies, sliding windows).
Data Preparation: Навыки очистки и подготовки "грязных" данных (парсинг PDF, работа с OCR-текстом, выделение структуры договора).
Evaluation: Умение построить систему оценки качества ответов. Не просто с использованием метрик и фреймворков (Ragas, DeepEval) для проверки фактической точности (Fact Checking).

3. Настройка парсинга и баз знаний

Понимание инструментов для извлечения данных из сложных юридических документов (многоколонная верстка, скан-копии, таблицы, рукописные подписи). Важно не просто извлечь текст, но и сохранить его семантическую структуру (заголовки, сноски, пункты договора).
Реализация продвинутых стратегий нарезки текста, чтобы не терять контекст конкретного пункта договора в общей массе текста.
Настройка автоматического извлечения метаданных (дата подписания, тип документа, сумма договора) Использование этих метаданных как в векторной базе данных для реализации гибридной фильтрации.
Будет большим плюсом опыт построения графов знаний. Умение связывать разрозненные документы через общие сущности (например, связывать Допсоглашение с Основным договором через ID клиента), улучшая качество RAG.
Опыт построения надежных и воспроизводимых пайплайнов обновления базы знаний. Обеспечение версионирования данных и обработки ошибок при парсинге.

Ключевые фокусы роли

Advanced RAG: Чтобы модель находила точные статьи закона, а не выдумывала их.

Domain Adaptation: Дообучение модели понимать юридический канцелярит и структуру документов.

Data Security: Развертывание моделей в закрытом контуре , чтобы данные клиентов не уходили в публичные API.

Откликнуться

LLM инженер

Похожие вакансии: Москва