Москва
Наш стек: Linux, Bash, SQL, Spark (PySpark), Hive,S3, Airflow, JupyterLab, Kafka, PostgreSQL, GreenPlum, ClickHouse, MLFlow.
Чем предстоит заниматься:
- управлением источниками данных и подключение новых;
- снабжением коллег данными своевременно и бесперебойно;
- разработкой Flow подготовки данных для моделей машинного обучения с тестами и проверкой простых NFR;
- продуктивизацией ML моделей;
- взаимодействием с коллегами по вопросам подключения источников данных.
Пожелания к опыту:
- опыт работы Data инженером от 3 лет;
- опыт с Big Data, Hive, Kafka;
- уверенные знания Python 3, PyTest;
- базовые знания алгоритмов и структур данных;
- опыт работы с Linux, Airflow;
- умение подключать новые источники данных, работать с текущими, дорабатывать DataSet и не избегать версионирования;
- умение разрабатывать и тестировать ETL-процедуры.
Будет плюсом:
- опыт работы c Bash, MLFlow, Hadoop, JupyterLab, Spark, ClickHouse, PostgreSQL, GreenPlum.