Data Engineer

Дата размещения вакансии: 23.05.2025

Работодатель: Розничное направление ГК Невада

Уровень зарплаты:

з/п не указана

Город:

Хабаровск

Требуемый опыт работы:

От 1 года до 3 лет

График работы с 09:00 до 18:00 по Хабаровскому времени, без сдвижек.
Обязанности:

Проектирование архитектуры Lakehouse: Разработка архитектуры корпоративного хранилища данных на основе парадигмы Data Lakehouse с учетом всех слоев (Bronze, Silver, Gold), включая моделирование и организацию данных по принципам Data Vault 2.0.
ETL/ELT и интеграция данных;
Разработка и сопровождение ETL/ELT-процессов для интеграции данных из различных источников (базы данных MSSQL, системы 1С, потоки данных Apache Kafka) на Bronze-слой озера данных;
Очистка, трансформация и консолидация данных на уровнях Silver и Gold с использованием платформ обработки данных Apache Spark и Apache Flink;
Создание витрин данных: Проектирование и создание витрин данных (слой Gold) для бизнес-аналитики и отчетности. Оптимизация хранения и выполнения запросов в витринах (например, с использованием аналитической СУБД StarRocks) для обеспечения высокой производительности доступа к данным;
Оркестрация пайплайнов: Настройка, оркестрация и мониторинг конвейеров обработки данных (data pipelines) с помощью инструментов управления рабочими процессами, таких как Apache NiFi и Kestra, для обеспечения надежной и автоматизированной обработки данных;
Каталог данных и метаданные: Ведение и развитие корпоративного каталога данных (на базе OpenMetadata или аналогичного решения) – документирование источников, схем данных и трансформаций, обеспечение доступности и актуальности метаданных для команды и бизнес-пользователей;
Качество данных и мониторинг: Обеспечение качества данных и высокой доступности хранилища: внедрение автоматизированных проверок качества, мониторинг ETL/ELT-процессов на всех этапах (Bronze/Silver/Gold) и оперативное реагирование на инциденты или отклонения;
CI/CD и DevOps: Внедрение практик CI/CD для инфраструктуры хранилища данных – автоматизация развертывания, тестирования и обновления компонентов (пайплайнов, хранилища, инструментов) с использованием современных инструментов непрерывной интеграции и доставки;

Документирование: Подготовка и актуализация технической документации – описание архитектуры Lakehouse, схем баз данных, процессов ETL/ELT, правил обеспечения качества данных и руководств по эксплуатации системы.

Будет плюсом:

Опыт работы с Data Vault 2.0 и понимание принципов моделирования данных в рамках этой методологии.
Практический опыт с системами оркестрации и управления потоками данных, такими как Apache NiFi, Kestra или аналогичными (например, Apache Airflow, Luigi).
Опыт использования инструментов для управления метаданными (например, OpenMetadata, Apache Atlas или Collibra) с целью ведения каталога данных и отслеживания происхождения данных (data lineage).
Знание платформы StarRocks или аналогичных аналитических СУБД (например, ClickHouse, Apache Druid) и навыки оптимизации SQL-запросов.
Понимание структуры и принципов работы систем 1С:Предприятие и опыт интеграции данных из 1С в хранилище данных.
Навыки работы с потоковыми данными и платформой Apache Kafka (настройка топиков, продюсеров/консьюмеров, обеспечение отказоустойчивости).
Опыт настройки процессов CI/CD для проектов обработки данных (на базе Jenkins, GitLab CI/CD или аналогичных систем).

Требования:

Опыт разработки от 1 года;
Обязательно знание: Python, Power BI, MS SQL Server, PostgreSQL, Kafka, SISS, CDC, принципы Data Vault,СУБД StarRocks, Apache NiFi и Kestra, Apache Airflow, Luigi,

Откликнуться

Data Engineer

Похожие вакансии: Хабаровск