Москва
DMP Яндекс Go — это платформа управления данными, которая решает все потребности пользователей по работе с данными: от выполнения ETL-процессов до решения задач Data Quality, Data Lineage, документирования и т. п. Она объединяет в себе различные технологии и позволяет выполнять как пакетную обработку данных с использованием MapReduce и Spark, так и потоковую обработку данных на Flink.
Мы стремимся писать совершенный код, проектировать и оптимизировать расчёты, прорабатывать самые сложные алгоритмы и готовить инструментарий для сотен бизнес-пользователей.
Какие задачи вас ждут:
- Разработка и поддержка коннекторов к различным хранилищам и источникам данных
Apache Flink прекрасно интегрируется с различными системами за счёт механизма коннекторов. Вашей задачей станет разработка таких коннекторов, которые работают в высоконагруженной распределённой системе и обрабатывают сотни мегабайт данных в секунду. - Развитие инфраструктурных сервисов платформы потоковой обработки данных
Наша платформа включает в себя ряд сервисов, которые контролируют множество кластеров Apache Flink и управляют ими. Эти сервисы следят за процессом выполнения различных поставок и выполняют их обслуживание, чтобы минимизировать задержки данных. - Развитие DSL для дата-инженеров
DSL написан на Python и максимально упрощает процесс написания поставок. Также он интегрирует PyFlink с нашим ETL-фреймворком. - Разработка и поддержка CI/CD-пайплайнов
Мы самостоятельно разрабатываем CI/CD, который позволяет собирать и выкатывать кластеры Apache Flink, коннекторы, форматтеры и пользовательские преобразования.
Мы ждем, что вы:
- Уверенно программируете на Java
- Знакомы с Python или готовы с ним работать
- Разрабатывали приложения на Spring
- Готовы осваивать новые технологии и фреймворки
- Умеете и любите писать чистый код, покрывать его тестами и проводить рефакторинг
- Понимаете, зачем нужны непрерывная интеграция и непрерывная доставка (CI/CD), Git и код-ревью
Будет плюсом, если вы:
- Работали с инструментами обработки больших данных: экосистемой Hadoop, Spark, ClickHouse, Greenplum и другими аналитическими MPP-БД
- Разрабатывали и проектировали распределённые системы — наша инфраструктура должна базироваться в нескольких дата-центрах
- Проектировали хранилища данных или поставку данных в них
- Проектировали и разрабатывали процессы обработки сложных событий (CEP) в почти реальном времени на Flink, Spark Streaming, Kafka Streams
- Работали со стриминговыми платформами, например с AWS Kinesis, Apache Kafka, Azure Event Hubs, понимаете, как они устроены и зачем нужны