Москва
Ленинградский проспект 72к4
Ленинградский проспект 72к4
Разрабатываем высоконагруженную платформу данных для холдинга Газпром Медиа.
Нам предстоит разрабатывать аналитические сервисы для RUTUBE, онлайн-кинотеатра Premier, Yappy и т.д
Обязанности:
- Организация загрузки данных из внешних источников (Яндекс Метрика, AppMetrica и Kafka);
- Организация хранения собственных данных;
- Выбор способа и оптимальной структуры хранения данных;
- Разработка и оптимизация ETL-процессов;
- Оптимизация извлечения данных;
- Подготовка данных, их очистка и обогащение;
- Оценка качества собранных данных;
- Разрабатывать тулинг для решения задач интеграции и обработки данных.
Требования:
- Опыт от 2+ лет в роли Data Engineer;
- Уверенно знать Spark и Spark Streaming;
- Практический опыт с докером и K8s;
- Практический опыт с Apache Airflow;
- Scala/Java/Python.
Наш стек:
· DataLakeHouse с разделенным compute и storage (S3 + Spark on K8S)
· Витрины на ClickHouse
· Spark как основной фреймворк работы с данными
· Шедулинг и оркестрация Airflow
· Trino в качестве SQL-движка для пользователей
Будет плюсом:
· Опыт работы с ClickHouse
· Опыт работы с Kafka
· Опыт работы с Trino
Условия:
- Оформление по ТК РФ, ДМС со стоматологией, после испытательного срока;
- Возможен удаленный,/гибридный график работы;
- Корпоративные скидки на фитнес и занятия английским;
- Мощный ноутбук, который не будет тормозить тебя в работе;
- Современный офис м Сокол. БЦ Алкон.