Яндекс хочет сделать повседневную жизнь людей более безопасной, удобной и комфортной. Мы одними из первых в мире создаём технологии беспилотного управления автомобилем и роботом-доставщиком. Чтобы воплотить это в жизнь, собираем команду увлечённых, умных и целеустремленных профессионалов.
Развитию технологий беспилотного вождения помогает анализ данных, а ему в свою очередь — выстраивание процессов управления данными: одни только сенсоры поставляют нам петабайты данных. Ищем специалистов, которые помогут решать задачи по управлению данными.
Какие задачи вас ждут
Проектирование архитектуры для транспорта и обработки больших данных
Автономный транспорт в результате своей работы создаёт большое количество данных, которые нужно эффективно обрабатывать, хранить и доставлять пользователям в удобном для них формате. Ежемесячно наше хранилище прирастает более чем на 3 Пб только за счёт новых логов.
Одна из задач команды дата-инженеров — строить эффективные пайплайны обработки данных и оптимизировать существующие, следить за качеством полученных данных и сроком их поставки в режиме 9999.
Развитие продуктового DWH по модели Data Vault 2.0
Помимо данных, полученных в результате обработки логов с машин, аналитики также работают с данными от сервисов, которые обеспечивают интеграцию с продуктами партнёров: Такси, Яндекс Еды, Яндекс Лавки и других. Данные из баз сервисов мы захватываем с помощью CDC-трансферов и далее раскладываем в модель Data Vault 2.0 с помощью собственного DMP-фреймворка.
Вам предстоит добавлять данные из новых источников в DWH, проектировать новые и модифицировать существующие витрины данных по запросам команды аналитики, а также разрабатывать решения для отслеживания времени поставки и качества данных.
Участие в инфраструктурных проектах
Мы используем разные решения для хранения данных, выполнения и оркестрации расчётов. С развитием проекта и ростом команды возникает много вызовов в области Data Governance: как правильно ограничить и организовать доступ к данным, как разграничить доступ команд к вычислительным/дисковым ресурсам, как организовать карантин и удаление неиспользуемых данных, как следить за тысячами процессов обработки данных и вовремя заметить сбой.
Мы ждем, что вы
- Пишете код на Python
- Знаете основные алгоритмы и структуры больших данных
- Разрабатывали ETL-процессы
- Работали с базами данных SQL и NoSQL
- Работали с экосистемой Hadoop или другим MapReduce-стеком
- Работали с брокерами сообщений (Kafka, RabbitMQ или аналогами)
Будет плюсом, если вы
- Работали с большими объёмами данных
- Проектировали или участвовали в проектировании DWH
- Работали с YTsaurus/YQL и другими инструментами инфраструктуры Яндекса
- Пишете код на С++
- Владеете современными инструментами визуализации данных
Что мы предлагаем
- Сильную команду, с которой можно расти
- Возможность работать над сложными задачами, влиять на процесс и быстро видеть результат работы
- Оценка достижений каждые полгода — подробная обратная связь и премии по результатам работы
- Гибкий график
- Расширенную программа ДМС
- Компенсацию оплаты питания
- Курсы, тренинги, митапы, конференции