Data Engineer

Дата размещения вакансии: 23.04.2025
Работодатель: Розничное направление ГК Невада
Уровень зарплаты:
з/п не указана
Город:
Хабаровск
Требуемый опыт работы:
От 1 года до 3 лет

График работы с 09:00 до 18:00 по Хабаровскому времени, без сдвижек.
Обязанности:

  • Проектирование архитектуры Lakehouse: Разработка архитектуры корпоративного хранилища данных на основе парадигмы Data Lakehouse с учетом всех слоев (Bronze, Silver, Gold), включая моделирование и организацию данных по принципам Data Vault 2.0.
    ETL/ELT и интеграция данных;
  • Разработка и сопровождение ETL/ELT-процессов для интеграции данных из различных источников (базы данных MSSQL, системы 1С, потоки данных Apache Kafka) на Bronze-слой озера данных;
  • Очистка, трансформация и консолидация данных на уровнях Silver и Gold с использованием платформ обработки данных Apache Spark и Apache Flink;
  • Создание витрин данных: Проектирование и создание витрин данных (слой Gold) для бизнес-аналитики и отчетности. Оптимизация хранения и выполнения запросов в витринах (например, с использованием аналитической СУБД StarRocks) для обеспечения высокой производительности доступа к данным;
  • Оркестрация пайплайнов: Настройка, оркестрация и мониторинг конвейеров обработки данных (data pipelines) с помощью инструментов управления рабочими процессами, таких как Apache NiFi и Kestra, для обеспечения надежной и автоматизированной обработки данных;
  • Каталог данных и метаданные: Ведение и развитие корпоративного каталога данных (на базе OpenMetadata или аналогичного решения) – документирование источников, схем данных и трансформаций, обеспечение доступности и актуальности метаданных для команды и бизнес-пользователей;
  • Качество данных и мониторинг: Обеспечение качества данных и высокой доступности хранилища: внедрение автоматизированных проверок качества, мониторинг ETL/ELT-процессов на всех этапах (Bronze/Silver/Gold) и оперативное реагирование на инциденты или отклонения;
  • CI/CD и DevOps: Внедрение практик CI/CD для инфраструктуры хранилища данных – автоматизация развертывания, тестирования и обновления компонентов (пайплайнов, хранилища, инструментов) с использованием современных инструментов непрерывной интеграции и доставки;

Документирование: Подготовка и актуализация технической документации – описание архитектуры Lakehouse, схем баз данных, процессов ETL/ELT, правил обеспечения качества данных и руководств по эксплуатации системы.

Будет плюсом:

  • Опыт работы с Data Vault 2.0 и понимание принципов моделирования данных в рамках этой методологии.
  • Практический опыт с системами оркестрации и управления потоками данных, такими как Apache NiFi, Kestra или аналогичными (например, Apache Airflow, Luigi).
  • Опыт использования инструментов для управления метаданными (например, OpenMetadata, Apache Atlas или Collibra) с целью ведения каталога данных и отслеживания происхождения данных (data lineage).
  • Знание платформы StarRocks или аналогичных аналитических СУБД (например, ClickHouse, Apache Druid) и навыки оптимизации SQL-запросов.
  • Понимание структуры и принципов работы систем 1С:Предприятие и опыт интеграции данных из 1С в хранилище данных.
  • Навыки работы с потоковыми данными и платформой Apache Kafka (настройка топиков, продюсеров/консьюмеров, обеспечение отказоустойчивости).
  • Опыт настройки процессов CI/CD для проектов обработки данных (на базе Jenkins, GitLab CI/CD или аналогичных систем).

Требования:

  • Опыт разработки от 1 года;
  • Обязательно знание: Python, Power BI, MS SQL Server, PostgreSQL, Kafka, SISS, CDC, принципы Data Vault,СУБД StarRocks, Apache NiFi и Kestra, Apache Airflow, Luigi,

​​​​​​

Похожие вакансии: Хабаровск