Мы - команда ML-инженеров GigaChat Data. Наша команда готовит данные для обучения всей линейки моделей LLM GigaChat (GigaChat, GigaChat Vision, GigaChat Audio, Giga Embeddings и др.). Мы собираем данные как для базовых моделей, так и для их адаптации под конкретные сценарии:
• Core модели – базовые модели
• Продукты B2C – WEB-версия GigaChat, персонализированные интеллектуальные ассистенты и пр.
• Внутренние банковские задачи – автоматизация обработки документов, анализ финансовых данных, поддержка сотрудников и пр.
• Внешние заказчики – кастомные решения для корпоративных клиентов, интеграция LLM в бизнес-процессы и пр.
Обязанности
- Сбор данных для alignment обучения моделей: Supervised Finetuning (SFT), Reinforcement Learning (RL, DPO , PPO, GRPO и пр.)
- Улучшение пайплайнов предобработки данных для разметки и обучения;
- Работа в плотной связке с командой ML, LoRA-finetuning
- Взаимодействие с командой асессоров/ разметчиков (мониторинг качества, корректировка инструкций и пр.)
- Расчет метрик и принятие решений по улучшению качества данных на их основе
Требования
- Знания Python на высоком уровне
- Опыт работы с проприетарными и open-source LLM (Llama, Mistral, Qwen, Google Gemini, OpenAI GPT, Anthropic и пр.)
- Понимание процессов работы с данными для больших языковых моделей
- Способность решать проблемы и организовывать работу в условиях многозадачности
Будет плюсом: опыт работы с LLM-агентами (LangChain, LangSmith, LangGraph, FAISS, RAG, ChromaDB и пр.).
Условия
- Гибкий стек инструментов и технологий
- Работа с крупнейшими массивами данных на рынке России
- Гибкий график (офис+удаленка)
- Профессиональное обучение, семинары, тренинги, конференции, корпоративная библиотека
- ДМС с первого рабочего дня, страхование жизни
- Льготные кредиты и корпоративные скидки
- Локация: м. Кутузовская (Сбер-Сити)