Москва
Технологии с которыми работаем: Linux, Bash, SQL, Spark (PySpark), Hive,S3, Airflow, JupyterLab, Kafka, PostgreSQL, GreenPlum, ClickHouse, MLFlow.
Твои задачи на этой позиции:
- управление источниками данных и подключение новых;
- снабжение коллег данными своевременно и бесперебойно;
- разработка Flow подготовки данных для моделей машинного обучения с тестами и проверкой простых NFR;
- продуктивизация ML моделей;
- взаимодействие с коллегами по вопросам подключения источников данных.
Пожелания к твоему опыту:
- Опыт работы Data инженером от 3 лет;
- опыт с Big Data, Hive, Kafka;
- уверенные знания Python 3, PyTest;
- базовые знания алгоритмов и структур данных;
- опыт работы с Linux, Airflow;
- умение подключать новые источники данных, работать с текущими, дорабатывать DataSet и не избегать версионирования;
- умение разрабатывать и тестировать ETL-процедуры.
Будет плюсом:
- опыт работы c Bash, MLFlow, Hadoop, JupyterLab, Spark, ClickHouse, PostgreSQL, GreenPlum.