Садовническая улица 82с2
У Яндекс Финтеха одно из крупнейших хранилищ банковских данных в облаке в России. В ближайший год объём данных вырастет в 10 раз, и мы хотим построить платформу, которая сможет эффективно и качественно обрабатывать петабайты данных.
Ищем в нашу команду опытного дата-инженера, который будет развивать хранилище данных (DWH).
Какие задачи вас ждут:
Создание и поддержка инструментов DWH
Вы будете создавать новые и поддерживать существующие инструменты для построения DWH. Ваша задача — разработать масштабируемую и надёжную архитектуру сервисов обработки данных, удобные и эффективные инструменты для этих сервисов, обеспечить высокое качество и целостность данных, а также оптимизировать производительность.
Разработка и поддержка инфраструктуры для обработки данных
Вам нужно будет проектировать и оптимизировать облачную инфраструктуру для обработки данных, разрабатывать эффективные пайплайны для развёртывания сервисов в облаке, анализировать нагрузку на сервисы и улучшать их работу, повышать качество сервисов и сокращать время обработки данных.
Реконсиляция данных
Вам предстоит разрабатывать и поддерживать процессы сверки данных, чтобы обеспечивать высокое качество и доступность банковской отчётности, аналитических витрин и мониторинговых дашбордов. Это позволит эффективно отслеживать ключевые метрики, быстро находить и устранять проблемы в работе хранилища данных и обеспечивать стабильную работу банка.
Сотрудничество с командами
Вы будете тесно взаимодействовать с разработчиками, аналитиками, продакт-менеджерами и другими специалистами, собирать требования к данным и сервисам обработки данных и внедрять их в DWH.
Мы ждём, что вы:
- Работали дата-инженером или разработчиком бэкенда/инфраструктуры
- Разрабатывали и поддерживали сервисы в Kubernetes
- Знаете технологии для обработки больших данных (Spark и Airflow) и для хранения и передачи данных (S3, Greenplum, PostgreSQL, ClickHouse, Oracle и Kafka)
- Знакомы с форматами хранения данных Apache Hudi
- Хорошо владеете SQL (опционально YQL)
- Владеете Python (опционально Kotlin/Java)
- Умеете быстро превращать бизнес-задачи в production-ready технические решения
Будет плюсом, если вы:
- Работали с Yandex Cloud (Yandex Data Processing, Yandex Data Sphere, Yandex Data Lens, Yandex Data Transfer)
- Взаимодействовали со стриминговыми технологиями (Spark Streaming, HoodieDeltaStreamer, Debezium, Apache Flink, Apache Pulsar)
- Работали с Trino