О проекте:
Мы создаём централизованное хранилище данных для крупного промышленного предприятия. Проект включает:
-
Миграцию с устаревших систем на современный стек: PostgreSQL (OLTP) + ClickHouse (OLAP);
-
Интеграцию данных из 15+ источников (ERP, CRM, IoT-датчики, внешние API);
-
Автоматизацию ETL/ELT процессов с использованием Apache Airflow;
-
Внедрение Data Governance для повышения качества и доступности данных.
Масштаб:
-
Ежедневная обработка 1+ ТБ данных;
-
Поддержка 50+ витрин данных для бизнес-аналитики;
-
Интеграция с Tableau и Power BI для визуализации.
Обязанности:
▫️ Проектирование и разработка архитектуры хранилища данных (DWH)
▫️ Создание и оптимизация ETL/ELT процессов (Airflow, Python)
▫️ Оптимизация производительности баз данных (PostgreSQL, ClickHouse)
▫️ Разработка data pipelines для обработки больших объёмов данных
▫️ Обеспечение качества данных (Data Governance, мониторинг аномалий)
▫️ Взаимодействие с аналитиками и бизнес-пользователями для сбора требований
▫️ Участие в проектировании решений для бизнес-аналитики
▫️ Поддержка документации по архитектуре и процессам
Требования:
✔️ Опыт работы с DWH от 3 лет
✔️ Экспертный уровень SQL (оконные функции, CTE, оптимизация запросов)
✔️ Глубокое знание PostgreSQL (партиционирование, индексы, производительность)
✔️ Опыт работы с ClickHouse (колоночное хранение, моделирование данных)
✔️ Навыки разработки ETL/ELT процессов (Airflow, dbt, Python)
✔️ Понимание принципов Data Governance и обеспечения качества данных
✔️ Опыт работы с большими объёмами данных (1+ ТБ)
✔️ Знание Agile/Scrum и опыт работы в командах
Будет преимуществом:
Опыт работы с Apache Kafka (потоковая обработка данных)
Знание концепций Data Lake и Data Mesh
Опыт интеграции с BI-инструментами (Tableau, Power BI)
Навыки работы в облачных хранилищах (AWS Redshift, Google BigQuery)
- 100% удалённый формат работы
- Работу с современным стеком: PostgreSQL 15, ClickHouse 23, Apache Airflow
- Оформление по аутстафу (ИП/ТК РФ);