Москва
Ищем Дата инженера в команду, которая разрабатывает и внедряет модели ML, CV и OCR для страховых продуктов КАСКО.
Чем предстоит заниматься:
- Формирование датасетов, поиск и подгрузка данных в Hadoop;
- Проектировать и оркестровать Data Pipelines;
- Работа с данными в Hadoop;
- Разрабатывать ETL-процессы для интеграции данных из различных внутренних и внешних источников;
- Оптимизация рабочих процессов, связанных с данными, и их автоматизация;
- Внедрение математических моделей в конвейер принятия решений.
Для нас важно:
- Опыт в направление от 2 лет;
- Опыт с Apache Airflow: настройка, оптимизация, DAG на Python;
- Знание SQL на уровне сложных запросов и оптимизации;
- Знание Python на хорошем уровне;
- Высшее образование.
Будет плюсом:
- Опыт работы с Hadoop;
- Опыт работы с Pyspark, Scala;
- Знание потоковых данных (Kafka, Spark Streaming);
- Опыт работ с Docker, Kubernetes.