з/п не указана
Москва
Электрозаводская улица 27с4
Электрозаводская улица 27с4
От 3 до 6 лет
Обязанности:
- разработка приложений с использованием LLM (агентные и RAG системы, системы обработки текстов);
- разработка способов оценивания качества работы LLM приложений;
- оптимизация инференса;
- построение web-интерфейсов для MVP и PoC.
Стек:
- разработка: Python 3.10+, FastAPI (+ сопутствующие инструменты), Docker;
- базовый инструментарий: PyTorch, инструменты экосистемы HuggingFace, pandas, scikit-learn, matplotlib;.
- языковые модели: энкодерные и декодерные языковые модели, инференс на vLLM, transformers, Llama.cpp (+ollama);
- хранилища: Elasticsearch, mongo, pgvecto-rs, HellixDB;
- интерфейсы: streamlit, gradio;
- MLOps: DVC.
Требования:
- уверенное знание Python;
- знание основ работы с Linux (shell, файловая система, процессы);
- математическая подготовка: математическая статистика (оценка параметров, их характеристики, доверительные интервалы, бутстрап), основы машинного обучения (регрессоры, классификаторы, деревья, метрики, EDA);
- базовое понимание работы LLM: понимание архитектуры, работа с внутренним состоянием, понимание принципов инференса (KV кэш, стратегии декодирования, структурированный вывод);
- опыт построения языковых моделей: SFT, DPO + RL, LoRA, контрастное обучение, метрики качества;
- опыт работы с RAG системами: понимание принципов функционирования, опыт участие в разработке;
- агентные системы: понимание архитектур и их проблем;
- способы замера качества LLM-приложений: метрики поиска данных, LLM-as-a-judge, сбор и разметка данных для специализированных бенчмарков, принципы работы общих бенчмарков.
Будет плюсом:
- опыт проектирования RAG и агентных систем, наличие опыта работы с LLM фреймворками, такими как Flowise, n8n (low code) или LlamaIndex, Langchain, CrewAI (python);
- опыт работы в других областях ML, таких как обработка аудио (TTS, STT, атрибуция), работа с изображениями (детекция объектов с Yolo, подготовка и разметка датасетов в CVAT), работа с мультимодальными LLM;
- опыт в оптимизации инференса: квантизация, дистиляция, использование эффективных фреймворков (TRT, SGLang), спекулятивный декодинг, continuous batching.