Пресненская набережная 10с2
Мы — AI-студия, разрабатывающая интеллектуальные текстовые решения для бизнеса: от автоматизации клиентского сервиса до систем управления знаниями. Наши продукты ежедневно обрабатывают десятки тысяч обращений, и мы активно масштабируем применение LLM в продакшене. Команда — 15 инженеров и исследователей, плоская структура, быстрые циклы экспериментов.
Чем предстоит заниматься:
— Обучать и дообучать NLP-модели под задачи продукта: классификаторы, эмбеддеры, ранкеры, генеративные модели. Полный цикл — от сбора и подготовки данных до вывода в продакшен.
— Дообучать open-source LLM (Qwen, Llama, Mistral и аналоги) методами SFT, LoRA/QLoRA, RLHF: ставить эксперименты, подбирать данные, анализировать поведение модели.
— Обучать и улучшать собственные модели для задач классификации, кластеризации, суммаризации, семантического поиска и text matching.
— Проектировать и проводить эксперименты: формулировать гипотезы, строить бейзлайны, подбирать метрики, анализировать ошибки моделей.
— Строить пайплайны оценки качества NLP/LLM-решений: автоматические метрики, LLM-as-a-judge, симуляции диалогов, организация и постановка разметки.
— Оптимизировать инференс: квантизация, дистилляция, работа с vLLM/TGI, профилирование, снижение латентности и стоимости.
— Работать с данными: сбор, очистка, анализ датасетов, построение пайплайнов подготовки данных для обучения и оценки.
— Внедрять модели в прикладные системы (RAG, агенты, поисковые пайплайны) совместно с продуктовой командой.
— Переводить бизнес-задачи в ML-постановки, проводить A/B-тесты, оценивать влияние моделей на продуктовые метрики.
Мы ожидаем:
— Опыт работы в NLP / ML от 2 лет с фокусом на обучение и дообучение моделей.
— Уверенное владение PyTorch: написание и отладка training loop, работа с кастомными датасетами, понимание backward pass и оптимизаторов.
— Опыт обучения и дообучения трансформерных моделей (BERT-подобные, encoder-decoder, decoder-only) под прикладные задачи.
— Практический опыт дообучения LLM: SFT, LoRA/QLoRA, подготовка данных для файнтюна, анализ поведения модели после обучения.
— Понимание архитектуры Transformer на уровне деталей: attention (MHA/GQA), позиционные кодировки, токенизация, особенности генерации.
— Знание классического NLP и ML: embeddings, tf-idf, классификация, кластеризация, метрики качества (precision/recall/F1, BLEU, ROUGE и др.).
— Опыт работы с данными для NLP: сбор, очистка, разметка, аугментация, анализ ошибок.
— Уверенное владение Python на уровне продакшн-кода (asyncio, typing, тестирование).
— Понимание принципов оптимизации инференса: квантизация, batching, KV-cache, профилирование.
— Опыт работы с библиотекой Transformers (HuggingFace) и экосистемой вокруг неё (datasets, tokenizers, PEFT, TRL).
— Уверенная работа с Linux, Git, Docker.
— SQL на уровне аналитических запросов.
— Умение готовить понятные отчеты и объяснять результаты нетехнической аудитории.
Будет преимуществом:
— Опыт проектирования RAG-систем и работы с векторными хранилищами (Qdrant, Milvus, pgvector, OpenSearch).
— Опыт разработки агентских систем (LangChain, LangGraph или аналоги).
— Опыт обучения моделей на GPU-кластерах, понимание distributed training на базовом уровне (DDP/FSDP).
— Опыт работы с vLLM, TGI, Triton Inference Server.
— Опыт постановки задач на разметку и приемки результатов от асессоров.
— Опыт проведения и анализа A/B-тестов.
— Участие в ML/DS-соревнованиях (Kaggle и т.д.) или вклад в open-source проекты.
— Опыт работы с Apache Spark, Airflow, Kafka.
— Понимание принципов MLOps: версионирование моделей, воспроизводимость экспериментов, мониторинг.
Наш стек:
Python, PyTorch, Transformers, LangChain/LangGraph, vLLM, Docker, Git, PostgreSQL, ClickHouse, Redis, S3, FastAPI, Linux.
Условия:
— Удаленная работа или гибрид (на ваш выбор).
— Гибкое начало рабочего дня.
— Официальное оформление по ТК РФ.
— Конкурентная заработная плата с пересмотром по результатам.
— Бюджет на обучение и конференции.
— Команда, которая ценит эксперименты, обмен знаниями и инженерную культуру.