Санкт-Петербург
Реализация различных сценариев data retrieval из документов с применением генеративных моделей (RAG-архитектура, выбор и до-обучение моделей), разработка OCR-инструмента для сложных таблиц на технологиях типа TATR. Проект про применение генеративных моделей в корпоративных финансах.
Нужно будет заниматься следующими задачами
— Создавать различные proof of concept по бизнес-сценариям клиентов с выбором LLM моделей и интерфейсами на streamlit/gradio
Нужно будет заниматься следующими задачами
— Создавать различные proof of concept по бизнес-сценариям клиентов с выбором LLM моделей и интерфейсами на streamlit/gradio
— Разбираться с технологиями CV в применении к OCR, включая fine tuning моделей. Нужно добиться возможности распознавания сканов нескольких типов таблиц в структурированный текстовый вид
-Формулировать задачи по разметке данных для исполнителей (определять необходимые форматы и инструменты) Проверять и использовать размеченные данные.
— Участвовать в разработке решений для продакшена, отвечать за интеграцию ML-модулей в общую систему.
Требуется от кандидата
Требуется от кандидата
— Знание Python и фреймворков для машинного обучения
— Желательно знакомство с llamaindex и langchain
— Опыт работы в командах более одного года
— Опыт работы в командах более одного года