LIAN — системный интегратор с фокусом в аналитике и управлении данными.
Мы работаем в трех направлениях:
1. Автоматизация управленческой отчетности (BI) в малом и среднем бизнесе. Строим хранилища данных, настраиваем сбор и интеграцию, разрабатываем отчеты и дэшборды. Наш стек в BI включает все современные инструменты, в том числе open-source ПО.
2. Заказная разработка аналитических систем. Когда у нашего клиента есть специфичный запрос, мы разрабатываем аналитические системы с нуля. Часто применяем подходы BigData, Data Science, актуальные подходы к программному анализу данных и прогнозированию.
3. Запуск и ресурсное обеспечение команд разработки в комплексных проектах цифровой трансформации. Мы усиливаем команды наших партнеров и клиентов собственными сотрудниками и обеспечиваем максимально быстрый старт новых проектов. Среди наших заказчиков -крупные системные интеграторы, банки, нефтегазовые, химические производства, логистические компании, стартапы.
Мы ищем опытного Data Engineer для доработки существующего пайплайна загрузки данных из SAP HANA в Hadoop на Apache Spark.
Стек проекта: Apache Spark (Scala / PySpark), Hadoop (HDFS, Hive), SAP HANA (JDBC), Python, Airflow (желательно), GitLab, Docker, Kubernetes (будет плюсом)
Обязанности:
- Доработка и оптимизация существующего Spark-лоадера для загрузки данных из SAP HANA в Hadoop.
- Реализация многопоточной (параллельной) загрузки для повышения производительности и сокращения времени выполнения.
- Оптимизация Spark-джоб: работа с партиционированием, настройка параметров JDBC, устранение data skew.
- Перенос пайплайна из Jupyter Notebook в промышленный ETL-процесс (Airflow, bash-скрипт или Spark Submit).
Требования:
-
Опыт работы с Apache Spark: написание и оптимизация пайплайнов обработки больших данных.
-
Уверенные знания партиционирования и многопоточной загрузки из реляционных БД в Spark.
-
Опыт интеграции со сторонними источниками данных по JDBC (желательно SAP HANA).
-
Знание Hadoop-экосистемы.
-
Опыт работы с Python, Scala или Java.
-
Умение работать с системами контроля версий (Git).
Будет плюсом:
-
Опыт построения автоматизированных ETL пайплайнов (Airflow).
-
Опыт работы с большими компаниями и высоконагруженными системами.
-
Навыки мониторинга и алертинга (Grafana, Zabbix).
Условия:
-
Реальная задача по оптимизации производительности на живых больших данных.
-
Работа в команде с сильной экспертизой в Big Data.
-
Возможность влиять на архитектуру и процессы.
- Аутстафф проект
- Сотрудничество через форму ИП или СЗ