Москва
Мы находимся в поиске Senior Data Engineer в платформенную команду BI.
Команда занимается развитием корпоративного хранилища данных (DataLake). Исследует и внедряет новые инструменты (RnD), пишет библиотеки для использования другими командами, разрабатывает нестандартные ETL потоки и помогает коллегам в оптимизации сложных потоков.
Ваши задачи:
- Реализация ETL в Hadoop (с помощью Airflow);
- Работа с различными источниками данных: Oracle, MS SQL, API личных кабинетов, микросервисы;
- Батч и стримы с помощью PySpark и Kafka;
- Подготовка витрин для анализа (Hive + Spark+ SQL).
Мы ждем от будущих коллег:
- Уверенное владение Python;
- Опыт использования эко-системы Hadoop: HDFS, Apache AirFlow, Hive, Kafka, Spark;
- Знание SQL;
- Опыт работы с реляционными базами данных (Oracle).
Наш стек: Python, Pyspark, Hive/hdfs, Airflow, ClickHouse, Kafka, Tableau.