Большая кольцевая линия метро Савёловская
Чем ты будешь заниматься:
-
Разрабатывать и сопровождать ETL/ELT-пайплайны для загрузки и обновления данных на Apache Spark
-
Проектировать и развивать продуктовые витрины данных под задачи аналитики, BI и ML
-
Готовить агрегированные и очищенные наборы данных из телематики, GPS, логов и учетных систем
-
Контролировать качество, полноту и своевременность обновления данных
-
Взаимодействовать с корпоративной платформой данных и владельцами источников по требованиям на подключение новых источников и доработку существующих загрузок;
-
Оптимизировать задания Spark, SQL-запросы и витрины для быстрой работы аналитики и дашбордов
Мы ожидаем от кандидата:
- Опыт работы в роли Data Engineer / BI Engineer от 2–3 лет
- Уверенный опыт работы с Apache Spark
- Хорошее знание SQL и опыт оптимизации запросов
- Уверенное владение Python; понимание ETL/ELT-процессов, качества данных и мониторинга загрузок
- Опыт проектирования витрин
- Будет плюсом: опыт с ClickHouse; опыт работы с IoT-, log- или телематическими данными; понимание логистики, автотранспорта, эксплуатации техники; опыт подготовки данных для ML и process mining
- Стек технологий: Apache Spark, SQL, Python, ClickHouse, S3(Parquet +Iceberg), Postgres, ETL / ELT, Git, Airflow, Apache Superset