Разработчик платформы управления данными в команду супераппа Яндекс Go

Дата размещения вакансии: 28.01.2025
Работодатель: Яндекс
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

DMP Яндекс Go — это платформа управления данными, которая решает все потребности пользователей по работе с данными: от выполнения ETL-процессов до решения задач Data Quality, Data Lineage, документирования и т. п. Она объединяет в себе различные технологии и позволяет выполнять как пакетную обработку данных с использованием MapReduce и Spark, так и потоковую обработку данных на Flink.

Мы стремимся писать совершенный код, проектировать и оптимизировать расчёты, прорабатывать самые сложные алгоритмы и готовить инструментарий для сотен бизнес-пользователей.

Какие задачи вас ждут:

  • Разработка и поддержка коннекторов к различным хранилищам и источникам данных
    Apache Flink прекрасно интегрируется с различными системами за счёт механизма коннекторов. Вашей задачей станет разработка таких коннекторов, которые работают в высоконагруженной распределённой системе и обрабатывают сотни мегабайт данных в секунду.
  • Развитие инфраструктурных сервисов платформы потоковой обработки данных
    Наша платформа включает в себя ряд сервисов, которые контролируют множество кластеров Apache Flink и управляют ими. Эти сервисы следят за процессом выполнения различных поставок и выполняют их обслуживание, чтобы минимизировать задержки данных.
  • Развитие DSL для дата-инженеров
    DSL написан на Python и максимально упрощает процесс написания поставок. Также он интегрирует PyFlink с нашим ETL-фреймворком.
  • Разработка и поддержка CI/CD-пайплайнов
    Мы самостоятельно разрабатываем CI/CD, который позволяет собирать и выкатывать кластеры Apache Flink, коннекторы, форматтеры и пользовательские преобразования.

Мы ждем, что вы:

  • Уверенно программируете на Java
  • Знакомы с Python или готовы с ним работать
  • Разрабатывали приложения на Spring
  • Готовы осваивать новые технологии и фреймворки
  • Умеете и любите писать чистый код, покрывать его тестами и проводить рефакторинг
  • Понимаете, зачем нужны непрерывная интеграция и непрерывная доставка (CI/CD), Git и код-ревью

Будет плюсом, если вы:

  • Работали с инструментами обработки больших данных: экосистемой Hadoop, Spark, ClickHouse, Greenplum и другими аналитическими MPP-БД
  • Разрабатывали и проектировали распределённые системы — наша инфраструктура должна базироваться в нескольких дата-центрах
  • Проектировали хранилища данных или поставку данных в них
  • Проектировали и разрабатывали процессы обработки сложных событий (CEP) в почти реальном времени на Flink, Spark Streaming, Kafka Streams
  • Работали со стриминговыми платформами, например с AWS Kinesis, Apache Kafka, Azure Event Hubs, понимаете, как они устроены и зачем нужны