2-й Сыромятнический переулок 1
Группа компаний ЦРТ - глобальный разработчик продуктов и решений на основе разговорного искусственного интеллекта, машинного обучения и компьютерного зрения c 35-летним опытом. Технологический эксперт в области речевых технологий, генеративного ИИ, лицевой и голосовой биометрии.
Мы разрабатываем продукт по автоматизации корпоративных данных с помощью LLM и ищем Data/ML инженера в команду, который построит интеллектуальную систему, поиска и обработки информации. Ваша экспертиза в области данных и машинного обучения поможет нам создать решение, которое упростит работу с корпоративными знаниями и ускорит принятие решений.
Что мы предлагаем кандидатам:
- Работу над проектами национального масштаба - не просто код, а технологии, которые влияют на жизнь миллионов.
- Возможность «прокачать» экспертизу в самых востребованных направлениях.
Наши победы говорят за нас:
- Digital Leaders Award 2024 («Проект года в бизнесе»)
- CX World Awards («Лучший клиентский опыт»)
- Победы в престижных конкурсах: ASVspoof 2021, CHiME-6, NIST SRE
Ключевые задачи:
- Определять источники данных: внешние системы, документы, БД, API, файловые хранилища, стримы обновлений.
- Проектировать модель данных: сущности, связи, версии, метаданные, lineage, права доступа;
- Организовывать сбор и нормализацию данных: очистка, дедупликация, классификация, разметка и контроль качества;
- Строить golden record/ golden print - эталонную карточку объекта, объединяющую лучшие атрибуты из разных источников;
- Подготавливать данные для RAG-пайплайна: чанкинг, эмбеддинги, векторный индекс, гибридный поиск, reranking;
- При необходимости готовить данные для дообучения модели (supervised/ fine-tuning);
- ОпределЯть метрики качества и мониторинг: retrieval precision/recall, groundedness, faithfulness, coverage, freshness, latency, answer quality.
Мы ждём от успешных кандидатов:
-
Уверенное владение Python и библиотеками для обработки данных (Pandas, PySpark);
- Опыт работы с NLP-библиотеками (spaCy, NLTK);
- Практический опыт работы с векторными базами данных и RAG-фреймворками (LlamaIndex, LangChain);
- Опыт проектирования и разработки отказоустойчивых ETL-пайплайнов;
- Понимание принципов работы LLM, эмбеддингов и семантического поиска;
- Знание алгоритмов поиска по сходству;
- Умение проводить EDA, оценивать качество данных, выявлять и устранять аномалии;
- Опыт работы с неструктурированными данными.
Будет плюсом:
- Опыт извлечения данных с помощью OCR;
- Опыт работы с облачными платформами (AWS, GCP, Azure) и инструментами оркестрации (Airflow, Dagster);
- Опыт внедрения систем оценки качества RAG (RAGAs).