Инженер данных для ИИ

Дата размещения вакансии: 07.04.2026
Работодатель: Глобус, Сеть гипермаркетов
Уровень зарплаты:
з/п не указана
Город:
Москва
Смольная 14
Требуемый опыт работы:
От 1 года до 3 лет

Обязанности:

1. Разработка data-pipeline и инфраструктуры

  • Проектировать архитектуру обработки данных (batch / streaming)
  • Разрабатывать и поддерживать ETL/ELT-процессы
  • Обеспечивать надежную доставку данных в ML/LLM-системы
  • Развивать Data Lake / Data Warehouse
  • 2. Работа с данными для ML/LLM

  • Подготавливать датасеты для обучения, тестирования и инференса
  • Подготавливать данные для RAG (документы, базы знаний, тексты)
  • Выполнять очистку, нормализацию, дедупликацию и обогащение данных
  • Работать с неструктурированными данными (тексты, PDF, логи, аудио)
  • 3. Качество данных и валидация

  • Разрабатывать системы контроля качества данных (data quality)
  • Внедрять проверки в пайплайны (validation, schema checks)
  • Обеспечивать консистентность и целостность данных
  • Анализировать причины деградации качества данных
  • 4. Интеграция и работа с бизнесом

  • Интегрировать данные из ERP, CRM и других систем
  • Взаимодействовать с бизнес-подразделениями
  • Формализовывать и структурировать знания компании
  • Подготавливать документацию в формат, пригодный для ИИ
  • 5. Оптимизация и продакшен

  • Оптимизировать производительность обработки данных
  • Учитывать latency, throughput и стоимость обработки
  • Обеспечивать масштабируемость решений
  • Участвовать в эксплуатации data-сервисов в продакшене
  • 6. Data-процессы и воспроизводимость

  • Строить воспроизводимые пайплайны (данные + код + конфигурации)
  • Версионировать данные и процессы
  • Документировать архитектуру и data-flow
  • Обеспечивать стабильность data lifecycle

Ожидаем от вас знаний и опыта:

  • Архитектуры данных;
  • Data Lake / Data Warehouse;
  • Методов интеграции данных;
  • Подготовки данных для ML;
  • Контроля качества данных;
  • Основ распределенных систем;
  • Разработки data-pipeline;
  • ETL/ELT;
  • Очистки и трансформации данных;
  • Data quality систем;
  • Подготовки датасетов для ML/LLM;
  • Работа с Git;
  • Docker / CI/CD.

​​​Условия:

  • График работы гибридный (посещение офиса 2 дня в неделю);
  • Дополнительная ежеквартальная премия;
  • Оформление в соответствии с ТК РФ в IT аккредитованную компанию;
  • Кафетерий льгот на выбор (питание, спорт-карта, ДМС);
  • 10% скидки на покупки в магазинах, бонусы по корпоративной карте лояльности.