Data Engineer

Дата размещения вакансии: 06.11.2025
Работодатель: Детский мир
Уровень зарплаты:
з/п не указана
Город:
Москва
3-й Нижнелихоборский проезд 3с6
Требуемый опыт работы:
От 3 до 6 лет

Мы - крупнейший ритейлер в офлайне и онлайне в РФ, ищем эксперта с высокой ролью ответственности на проекте, умеющего самостоятельно и в команде принимать решение по архитектуре и реализации.

Нашему будущему коллеге предстоит работать над проектом: OMNI-дашборды - системой визуализации отчетности для покрытия потребности в аналитических инструментах для высшего и среднего менеджмента Компании. Работать над развитием Корпоративного Хранилища Данных (Hadoop), которое является основным источником данных для этого проекта.

Цель проекта – реализовать уникальную систему по работе с клиентскими данными ПАО "Детский мир" на основе используемых компонентов и стэка технологий и программного обеспечения компании. По итогам проекта в компании появится единый источник непротиворечивой и консистентной информации для принятия управленческих решений.

Что нужно делать?

  • Создавать Spark ETL pipeline для загрузки данных в HDFS и преобразования данных на HDFS

  • Обсуждать с аналитиками алгоритмы преобразования данных, переводить SQL от аналитиков в Spark API

  • Участвовать в code review

  • Проектировать и создавать архитектуру проекта и адаптировать ее под новые требования

  • Понимать процессы CI/CD, мониторинга, взаимодействовать с командой DevOps

  • Проектировать, разрабатывать и поддерживать витрины данных

    • обычно это Sql или DataFrame API

  • Разрабатывать алгоритмы выгрузки, обработки, хранения данных (ETL) из разных систем, интеграция с внешними системами:

    • sql

    • но бывает csv, xml, json, API

  • Разрабатывать правила и процедуры контроля качества данных

  • Поддерживать переливки витрин в ClickHouse

  • Создавать Дашборды в SuperSet

  • Поддерживать цепочки поставки витрин

Наш стек:

  • Apache Spark и Apache Airflow

  • Hadoop 3

  • ClickHouse

  • SuperSet

  • Docker, Kubernetes, VictoriaMetrics

  • GitLab для CI/CD

Наши ожидания:

  • Знания SQL

  • Понимание жизненного цикла разработки ПО, культуры CI/CD

  • Опыт создания и оптимизации Spark batch jobs, Scala API, PySpark

  • Опыт работы с Airflow, умение создавать DAG'и, состоящие из Task и Sensor

  • Будет плюсом:

  • Опыт работы с Kubernetes, Helm

  • Опыт работы с GitLab CI/CD

Будет плюсом:

  • Опыт работы с GitLab CI/CD

Мы предлагаем:

  • Официальное трудоустройство по ТК РФ: мы заключим с вами срочный трудовой договор на 6 месяцев

  • Оформление в аккредитованную ИТ компанию
  • Комфортный современный офис в районе мцк/мжд/метро Окружная (пешая доступность) или метро Петровско-Разумовская (10 минут на транспорте)
  • График работы: 5/2, гибкое начало рабочего времени, работа в офисе, гибридный график (частично-удаленный формат работы) или удаленный формат на выбор
  • Хорошая техническая оснащенность: Современный макбук