Data/ML Engineer (RAG)

Дата размещения вакансии: 05.06.2026
Работодатель: ЦРТ | Группа компаний
Уровень зарплаты:
з/п не указана
Город:
Москва
2-й Сыромятнический переулок 1
Требуемый опыт работы:
Более 6 лет

Группа компаний ЦРТ - глобальный разработчик продуктов и решений на основе разговорного искусственного интеллекта, машинного обучения и компьютерного зрения c 35-летним опытом. Технологический эксперт в области речевых технологий, генеративного ИИ, лицевой и голосовой биометрии.

Мы разрабатываем продукт по автоматизации корпоративных данных с помощью LLM и ищем Data/ML инженера в команду, который построит интеллектуальную систему, поиска и обработки информации. Ваша экспертиза в области данных и машинного обучения поможет нам создать решение, которое упростит работу с корпоративными знаниями и ускорит принятие решений.

Что мы предлагаем кандидатам:

  • Работу над проектами национального масштаба - не просто код, а технологии, которые влияют на жизнь миллионов.
  • Возможность «прокачать» экспертизу в самых востребованных направлениях.

Наши победы говорят за нас:

  • Digital Leaders Award 2024 («Проект года в бизнесе»)
  • CX World Awards («Лучший клиентский опыт»)
  • Победы в престижных конкурсах: ASVspoof 2021, CHiME-6, NIST SRE

Ключевые задачи:

  • Определять источники данных: внешние системы, документы, БД, API, файловые хранилища, стримы обновлений.
  • Проектировать модель данных: сущности, связи, версии, метаданные, lineage, права доступа;
  • Организовывать сбор и нормализацию данных: очистка, дедупликация, классификация, разметка и контроль качества;
  • Строить golden record/ golden print - эталонную карточку объекта, объединяющую лучшие атрибуты из разных источников;
  • Подготавливать данные для RAG-пайплайна: чанкинг, эмбеддинги, векторный индекс, гибридный поиск, reranking;
  • При необходимости готовить данные для дообучения модели (supervised/ fine-tuning);
  • ОпределЯть метрики качества и мониторинг: retrieval precision/recall, groundedness, faithfulness, coverage, freshness, latency, answer quality.

Мы ждём от успешных кандидатов:

  • Уверенное владение Python и библиотеками для обработки данных (Pandas, PySpark);

  • Опыт работы с NLP-библиотеками (spaCy, NLTK);
  • Практический опыт работы с векторными базами данных и RAG-фреймворками (LlamaIndex, LangChain);
  • Опыт проектирования и разработки отказоустойчивых ETL-пайплайнов;
  • Понимание принципов работы LLM, эмбеддингов и семантического поиска;
  • Знание алгоритмов поиска по сходству;
  • Умение проводить EDA, оценивать качество данных, выявлять и устранять аномалии;
  • Опыт работы с неструктурированными данными.
    ​​​

Будет плюсом:

  • Опыт извлечения данных с помощью OCR;
  • Опыт работы с облачными платформами (AWS, GCP, Azure) и инструментами оркестрации (Airflow, Dagster);
  • Опыт внедрения систем оценки качества RAG (RAGAs).