Яндекс богат своей внутренней инфраструктурой: в неё входят десятки взаимосвязанных сервисов, включая высоконагруженные системы вычислений с тысячами внутренних пользователей. Такая инфраструктура нуждается в системе, которая объединяет данные об её использовании и позволяет их анализировать.
Meta DWH — сервис и команда, которая занимается сбором, хранением, подготовкой и анализом данных по домену внутренней инфраструктуры. На основе этих данных команда создаёт приборы здоровья инфраструктурных компонентов, дашборды для анализа их состояния, алерты и рекомендации по внесению изменений в паттерны использования. Мы помогаем находить узкие места, неоптимальности в использовании и точки роста эффективности для всего Яндекса.
Какие задачи вас ждут:
Построение инфраструктурного DWH
К примеру, вам предстоит понять, как устроена система распределённых вычислений YTsaurus, в чём специфика её работы, какие данные она генерирует и как их анализировать. Необходимо создать эффективные процессы сбора и хранения этих данных (DWH), чтобы легко анализировать их и принимать решения на их основе.
Создание инструментов для анализа потребления ресурсов
Сотни команд используют инфраструктуру обработки больших данных для своих задач. Цель — увеличить долю пользователей, которые активно занимаются оптимизациями, и дать ответственным за «железо» понимание того, на что тратятся ресурсы и где их можно использовать эффективнее.
Улучшение инструментов Data Governance
DataCatalog — сервис для предоставления метаинформации о данных, получения связей между данными и коммуникации между их поставщиками и потребителями. Вам предстоит подготавливать данные для этого сервиса, улучшать их связность, ускорять поставку для решения реальных каждодневных задач пользователей.
Мы ждем, что вы:
- Уверенно пишете код на Python — он будет полезен для написания скриптов и автоматизации процессов
- Знакомы с диалектами SQL
- Внимательны к деталям и знаете, как провалидировать полученный результат
- Умеете представлять результаты своей работы в лаконичной и понятной форме
- Готовы общаться с большим количеством смежных команд
- Хотите развиваться в области дата-инженерии и инфраструктуры больших данных
Будет плюсом, если вы:
- Работали с инструментами визуализации — мы используем Yandex DataLens
- Работали в коммерческой технологической компании