Дата-инженер в Автономный транспорт

Дата размещения вакансии: 20.01.2025
Работодатель: Яндекс
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

Яндекс хочет сделать повседневную жизнь людей более безопасной, удобной и комфортной. Мы одними из первых в мире создаём технологии беспилотного управления автомобилем и роботом-доставщиком. Чтобы воплотить это в жизнь, собираем команду увлечённых, умных и целеустремленных профессионалов.

Развитию технологий беспилотного вождения помогает анализ данных, а ему в свою очередь — выстраивание процессов управления данными: одни только сенсоры поставляют нам петабайты данных. Ищем специалистов, которые помогут решать задачи по управлению данными.

Какие задачи вас ждут

Проектирование архитектуры для транспорта и обработки больших данных
Автономный транспорт в результате своей работы создаёт большое количество данных, которые нужно эффективно обрабатывать, хранить и доставлять пользователям в удобном для них формате. Ежемесячно наше хранилище прирастает более чем на 3 Пб только за счёт новых логов.

Одна из задач команды дата-инженеров — строить эффективные пайплайны обработки данных и оптимизировать существующие, следить за качеством полученных данных и сроком их поставки в режиме 9999.

Развитие продуктового DWH по модели Data Vault 2.0
Помимо данных, полученных в результате обработки логов с машин, аналитики также работают с данными от сервисов, которые обеспечивают интеграцию с продуктами партнёров: Такси, Яндекс Еды, Яндекс Лавки и других. Данные из баз сервисов мы захватываем с помощью CDC-трансферов и далее раскладываем в модель Data Vault 2.0 с помощью собственного DMP-фреймворка.

Вам предстоит добавлять данные из новых источников в DWH, проектировать новые и модифицировать существующие витрины данных по запросам команды аналитики, а также разрабатывать решения для отслеживания времени поставки и качества данных.

Участие в инфраструктурных проектах
Мы используем разные решения для хранения данных, выполнения и оркестрации расчётов. С развитием проекта и ростом команды возникает много вызовов в области Data Governance: как правильно ограничить и организовать доступ к данным, как разграничить доступ команд к вычислительным/дисковым ресурсам, как организовать карантин и удаление неиспользуемых данных, как следить за тысячами процессов обработки данных и вовремя заметить сбой.

Мы ждем, что вы

  • Пишете код на Python
  • Знаете основные алгоритмы и структуры больших данных
  • Разрабатывали ETL-процессы
  • Работали с базами данных SQL и NoSQL
  • Работали с экосистемой Hadoop или другим MapReduce-стеком
  • Работали с брокерами сообщений (Kafka, RabbitMQ или аналогами)

Будет плюсом, если вы

  • Работали с большими объёмами данных
  • Проектировали или участвовали в проектировании DWH
  • Работали с YTsaurus/YQL и другими инструментами инфраструктуры Яндекса
  • Пишете код на С++
  • Владеете современными инструментами визуализации данных

Что мы предлагаем

  • Сильную команду, с которой можно расти
  • Возможность работать над сложными задачами, влиять на процесс и быстро видеть результат работы
  • Оценка достижений каждые полгода — подробная обратная связь и премии по результатам работы
  • Гибкий график
  • Расширенную программа ДМС
  • Компенсацию оплаты питания
  • Курсы, тренинги, митапы, конференции