Разработчик платформы управления данными в команду супераппа Яндекс Go

Дата размещения вакансии: 28.01.2025

Работодатель: Яндекс

Уровень зарплаты:

з/п не указана

Город:

Москва

Требуемый опыт работы:

От 3 до 6 лет

DMP Яндекс Go — это платформа управления данными, которая решает все потребности пользователей по работе с данными: от выполнения ETL-процессов до решения задач Data Quality, Data Lineage, документирования и т. п. Она объединяет в себе различные технологии и позволяет выполнять как пакетную обработку данных с использованием MapReduce и Spark, так и потоковую обработку данных на Flink.

Мы стремимся писать совершенный код, проектировать и оптимизировать расчёты, прорабатывать самые сложные алгоритмы и готовить инструментарий для сотен бизнес-пользователей.

Какие задачи вас ждут:

Разработка и поддержка коннекторов к различным хранилищам и источникам данных
Apache Flink прекрасно интегрируется с различными системами за счёт механизма коннекторов. Вашей задачей станет разработка таких коннекторов, которые работают в высоконагруженной распределённой системе и обрабатывают сотни мегабайт данных в секунду.
Развитие инфраструктурных сервисов платформы потоковой обработки данных
Наша платформа включает в себя ряд сервисов, которые контролируют множество кластеров Apache Flink и управляют ими. Эти сервисы следят за процессом выполнения различных поставок и выполняют их обслуживание, чтобы минимизировать задержки данных.
Развитие DSL для дата-инженеров
DSL написан на Python и максимально упрощает процесс написания поставок. Также он интегрирует PyFlink с нашим ETL-фреймворком.
Разработка и поддержка CI/CD-пайплайнов
Мы самостоятельно разрабатываем CI/CD, который позволяет собирать и выкатывать кластеры Apache Flink, коннекторы, форматтеры и пользовательские преобразования.

Мы ждем, что вы:

Уверенно программируете на Java
Знакомы с Python или готовы с ним работать
Разрабатывали приложения на Spring
Готовы осваивать новые технологии и фреймворки
Умеете и любите писать чистый код, покрывать его тестами и проводить рефакторинг
Понимаете, зачем нужны непрерывная интеграция и непрерывная доставка (CI/CD), Git и код-ревью

Будет плюсом, если вы:

Работали с инструментами обработки больших данных: экосистемой Hadoop, Spark, ClickHouse, Greenplum и другими аналитическими MPP-БД
Разрабатывали и проектировали распределённые системы — наша инфраструктура должна базироваться в нескольких дата-центрах
Проектировали хранилища данных или поставку данных в них
Проектировали и разрабатывали процессы обработки сложных событий (CEP) в почти реальном времени на Flink, Spark Streaming, Kafka Streams
Работали со стриминговыми платформами, например с AWS Kinesis, Apache Kafka, Azure Event Hubs, понимаете, как они устроены и зачем нужны

Откликнуться

Разработчик платформы управления данными в команду супераппа Яндекс Go

Похожие вакансии: Москва