Мы в поиске Инженера по работе с большими данными в команду дата-инжиниринга, который будет участвовать в ключевых проектах Lamoda, обеспечивая стабильную и масштабируемую инфраструктуру для обработки и анализа данных.
В рамках этой роли вы будете решать задачи продуктового направления навигации, которое:
-
Развивает поиск, каталог, саджесты, ранжирование товаров и AI-инструменты навигации.
-
Улучшает качество поиска и навигации через аналитику, работу с поисковыми запросами и ML-модели (DL, NLP, CV).
-
Обеспечивает эффективную интеграцию алгоритмов с продуктовым дизайном.
-
Реализует data-driven инициативы, помогая пользователю быстрее находить нужные товары и информацию.
Чем предстоит заниматься:
-
Разрабатывать и развивать платформу данных электронной коммерции нового поколения;
-
Проектировать и реализовывать ETL-пайплайны в Airflow для Spark, Streaming, Hive, Trino;
-
Оптимизировать существующие пайплайны и Spark-джобы: следить за нагрузкой на кластер, ресурсами и производительностью;
-
Взаимодействовать с аналитиками и ML-инженерами, оптимизировать SQL-запросы, развивать культуру осознанной работы с данными;
-
Развивать Action Storage — слой событий кликстрима, используемый в аналитике и моделях;
-
Анализировать и внедрять новые инструменты для эффективной работы с данными.
Мы ожидаем:
-
Опыт работы со стеком Hadoop (YARN, HDFS, Hive);
-
Уверенные навыки в Spark;
-
Опыт разработки на Python;
-
Отличное понимание SQL и принципов работы с СУБД;
-
Инженерный подход, интерес к системам данных и внимание к деталям.
Будет плюсом:
-
Опыт с Docker;
-
Знакомство с Kafka, Iceberg.