Дата-инженер в Автономный транспорт

Дата размещения вакансии: 20.01.2025

Работодатель: Яндекс

Уровень зарплаты:

з/п не указана

Город:

Москва

Требуемый опыт работы:

От 3 до 6 лет

Яндекс хочет сделать повседневную жизнь людей более безопасной, удобной и комфортной. Мы одними из первых в мире создаём технологии беспилотного управления автомобилем и роботом-доставщиком. Чтобы воплотить это в жизнь, собираем команду увлечённых, умных и целеустремленных профессионалов.

Развитию технологий беспилотного вождения помогает анализ данных, а ему в свою очередь — выстраивание процессов управления данными: одни только сенсоры поставляют нам петабайты данных. Ищем специалистов, которые помогут решать задачи по управлению данными.

Какие задачи вас ждут

Проектирование архитектуры для транспорта и обработки больших данных
Автономный транспорт в результате своей работы создаёт большое количество данных, которые нужно эффективно обрабатывать, хранить и доставлять пользователям в удобном для них формате. Ежемесячно наше хранилище прирастает более чем на 3 Пб только за счёт новых логов.

Одна из задач команды дата-инженеров — строить эффективные пайплайны обработки данных и оптимизировать существующие, следить за качеством полученных данных и сроком их поставки в режиме 9999.

Развитие продуктового DWH по модели Data Vault 2.0
Помимо данных, полученных в результате обработки логов с машин, аналитики также работают с данными от сервисов, которые обеспечивают интеграцию с продуктами партнёров: Такси, Яндекс Еды, Яндекс Лавки и других. Данные из баз сервисов мы захватываем с помощью CDC-трансферов и далее раскладываем в модель Data Vault 2.0 с помощью собственного DMP-фреймворка.

Вам предстоит добавлять данные из новых источников в DWH, проектировать новые и модифицировать существующие витрины данных по запросам команды аналитики, а также разрабатывать решения для отслеживания времени поставки и качества данных.

Участие в инфраструктурных проектах
Мы используем разные решения для хранения данных, выполнения и оркестрации расчётов. С развитием проекта и ростом команды возникает много вызовов в области Data Governance: как правильно ограничить и организовать доступ к данным, как разграничить доступ команд к вычислительным/дисковым ресурсам, как организовать карантин и удаление неиспользуемых данных, как следить за тысячами процессов обработки данных и вовремя заметить сбой.

Мы ждем, что вы

Пишете код на Python
Знаете основные алгоритмы и структуры больших данных
Разрабатывали ETL-процессы
Работали с базами данных SQL и NoSQL
Работали с экосистемой Hadoop или другим MapReduce-стеком
Работали с брокерами сообщений (Kafka, RabbitMQ или аналогами)

Будет плюсом, если вы

Работали с большими объёмами данных
Проектировали или участвовали в проектировании DWH
Работали с YTsaurus/YQL и другими инструментами инфраструктуры Яндекса
Пишете код на С++
Владеете современными инструментами визуализации данных

Что мы предлагаем

Сильную команду, с которой можно расти
Возможность работать над сложными задачами, влиять на процесс и быстро видеть результат работы
Оценка достижений каждые полгода — подробная обратная связь и премии по результатам работы
Гибкий график
Расширенную программа ДМС
Компенсацию оплаты питания
Курсы, тренинги, митапы, конференции

Откликнуться

Дата-инженер в Автономный транспорт

Похожие вакансии: Москва