Островная улица 4
В нашей IT-команде уже больше 850 специалистов, которые постоянно совершенствуют свои навыки. Мы не стоим на месте — постоянно улучшаем процессы разработки (ATDD, CI/CD и другие), пробуем новые подходы и развиваем команду. Нам важно, чтобы каждый сотрудник продолжал расти, поэтому мы проводим внутренние митапы, хакатоны, развиваем гильдии по направлениям и поддерживаем обучение за пределами компании. У нас есть много возможностей для профессионального развития и не только.
О проекте:
Сейчас мы находимся в поисках Data Engineer (Hadoop) в команду, которая занимается полным циклом внедрения математических моделей (ML моделей).
Наш стэк:
Мы все работаем на современной ML-платформе.
Используем PySpark, SQL, Python, Airflow для оркестрации DAGов, MLFlow для регистрации моделей и Feature Store для хранения фичей.
Наша команда:
7 человек: DE, DS, DA и MLE
Чем предстоит заниматься:
- Формирование датасетов, поиск и подгрузка данных;
- Автоматизация Data Pipelines;
- Разработка ETL-процессов для интеграции данных из различных внутренних и внешних источников;
- Оптимизация сборки датасетов и работа с багами;
- Подготовка данных для внедрения математических моделей в конвейер принятия решений.
Что мы ждем:
- Опыт в направлении от 3 лет;
- Опыт с Apache Airflow: настройка, оптимизация, DAG на Python;
- Знание SQL на уровне сложных запросов и оптимизации;
- Знание Python на Middle уровне;
- Высшее образование.
Будет плюсом:
- Опыт работы с Pyspark, Scala;
- Знание потоковых данных (Kafka, Spark Streaming);
- Опыт работ с Docker, Kubernetes.