з/п не указана
Москва
Ленинградский проспект 39с80
Ленинградский проспект 39с80
От 1 года до 3 лет
Обязанности:
- Разработка и поддержка ETL-пайплайнов на PySpark (обработка данных в Data Lake: Trino+Iceberg, HDFS);
- Проектирование и написание DAG в Apache Airflow;
- Загрузка сырых данных и слоя DDS в Iceberg;
- Построение финальных витрин данных в PostgreSQL (денормализация, агрегации);
- Написание и оптимизация сложных SQL-запросов (в т.ч. оконные функции, CTE);
- Поддержка контроля качества данных: реализация проверок и алертов в пайплайнах;
- Оптимизация производительности: батчинг, партиционирование Iceberg, настройка Spark;
- Взаимодействие с аналитиками BI для корректного построения источников данных под Qlik и Power BI;
- Мониторинг пайплайнов (SLA-контроль, логи, ретраи, обработка сбоев).
Требования:
- Стек технологий (обязательно к работе):
Python, PySpark, Apache Airflow, Trino, Apache Iceberg, HDFS, PostgreSQL, Scrum; - Опыт коммерческой разработки на Python от 2 лет (именно для data-инженерии, не веб);
- Опыт работы с PySpark от 1 года (чтение/запись в Hive/Iceberg, трансформации, оптимизация);
- Опыт написания DAG в Apache Airflow ;
- Хорошее понимание Iceberg (схема эволюции, time travel, MERGE, партиционирование) в связке с Trino;
- Продвинутый SQL (оконные функции, CTE, объединения, подзапросы) на PostgreSQL-подобных диалектах;
- Опыт проектирования витрин в PostgreSQL (денормализация, агрегации, SCD Type 2);
- Понимание контроля качества данных;
- Опыт оптимизации ETL-пайплайнов (работа с большими объёмами, избегание дрейфа схемы, настройка Spark);
- Понимание работы распределённых систем (принципы MapReduce, shuffle, партиционирование);
- Готовность взаимодействовать с BI-разработчиками: понимание Qlik и Power BI.
Условия:
- Официальное трудоустройство и стабильная заработная плата;
- Удалённый формат работы;
- Возможности профессионального и карьерного роста внутри банка;
- ДМС после испытательного срока.