Data Engineer Middle/Middle+

Дата размещения вакансии: 27.11.2025
Работодатель: Рафт Диджитал Солюшенс
Уровень зарплаты:
з/п не указана
Город:
Москва
улица Свердлова 25Д
Требуемый опыт работы:
От 3 до 6 лет

Data Engineer с опытом Python Backend

Raft — команда, которая внедряет AI-решения на базе LLM и помогает компаниям автоматизировать процессы, повышать эффективность и создавать новые продукты на основе современных технологий искусственного интеллекта.

Мы расширяем команду и ищем инженера, который уверенно работает с данными и комфортно чувствует себя в backend-разработке на Python.

Основная роль — Data Engineer на проекте AI-платформы «Умный поиск по патентам»: обработка научно-технических данных, дедупликация, формирование профилей, подготовка данных для Elastic и развитие архитектуры.
Параллельно — задачи на Python backend: интеграции с LLM, обработка данных для моделей, FastAPI-микросервисы.

Если тебе нравится сочетание “данные + питон” — ты наш человек.

Что ты будешь делать

🔹 Data Engineering (основная часть)

  • Дедупликация и слияние сущностей: авторы, организации, публикации, патенты.

  • Разбор крупных файлов (JSON/XLSX/CSV, 50–500+ МБ), валидация, согласование идентификаторов.

  • Формирование итоговых профилей в PostgreSQL: перенос связей, разрешение конфликтов, поддержание корректности данных.

  • Контроль уникальности ключей (ORCID, ScopusID, OpenAlexID и др.).

  • Подготовка данных для индексов поиска, нормализация, устранение дублей.

  • Запуски reindex-процедур в Elasticsearch/OpenSearch.

  • Оптимизация SQL-запросов, работа со схемами, индексацией, большими update/merge операциями.

  • Поддержка ETL/ELT-процессов: парсинг, обогащение, загрузка, логирование, проверка качества.

🔹 Python Backend / AI-задачи

  • Разработка FastAPI-сервисов.

  • Интеграции LLM (OpenAI API, LangChain), подготовка пайплайнов данных.

  • Создание утилит на Python для обработки JSON/XLSX/CSV.

  • Подготовка данных для моделей (RAG, embeddings, структурирование).

  • Работа в связке с ML/AI-командой: поддержка бэкендом, улучшение пайплайнов.

Кого мы ищем

Опыт и навыки

  • 2–4+ года опыта Data Engineer / DataOps / Backend-разработки.

  • Отличное знание PostgreSQL: сложные запросы, JOIN’ы, CTE, индексы, миграции, merge-операции.

  • Уверенный Python: парсинг данных, обработка больших файлов, написание утилит.

  • Опыт с Elasticsearch/OpenSearch: мэппинги, bulk-индексация, reindex.

  • Понимание JSON-структур, вложенных словарей, больших объёмов данных.

  • Навыки оптимизации SQL и работы с большими наборами данных.

  • Умение формализовывать задачи и проверять качество результата.

Плюсом будет

  • ClickHouse / Greenplum / DuckDB.

  • Глубокие знания Elasticsearch: анализаторы, ngram, релевантность.

  • Опыт разработки микросервисов на FastAPI.

  • Airflow или аналоги.

  • Опыт работы с научными, патентными или бизнес-корпусами данных.

  • Понимание основ информационного поиска и индексации.

Что мы предлагаем

  • Формат работы: удалённо, гибридно или из офиса (Ярославль, ул. Свердлова, 25д).

  • График: гибкий, full-time.

  • Проекты: участие в передовых разработках в области AI.

  • Команда: дружелюбная корпоративная культура и поддержка в развитии.

  • Рост: возможности обучения и роста внутри команды.

  • Уровень зарплаты: обсуждается по итогам собеседования.