Наша команда занимается построением и масштабированием хранилищ данных для экосистемы VK, где ежедневно обрабатываются петабайты информации и миллиарды событий. Наши решения используют такие продукты, как Почта, Облако, RuStore, VK Tech, Маруся и многие другие.
Вам предстоит разрабатывать и поддерживать ETL-процессы с использованием Airflow и Spark, глубоко погружаться в оптимизацию запросов ClickHouse и распределённых вычислений в Spark. Мигрировать наши продукты в облачные сервисы с использованием Kubernetes и YT, развивать инструменты, позволяющие аналитикам самостоятельно строить витрины данных.
Ключевые технологии, с которыми вы будете работать: Python как основной язык разработки, ClickHouse для аналитических запросов, Apache Spark для распределённой обработки данных, Airflow для оркестрации процессов.
Если вы хотите работать с реальными Big Data в распределённых системах — добро пожаловать в нашу команду! Мы предлагаем возможность участвовать в масштабных проектах, профессионально расти и решать интересные технологические задачи.
Задачи
- Разработка DWH-платформы
- Проектирование схем для хранения данных
- Автоматизация загрузки данных из различных источников (как внутренние БД, так и внешние аналитические/ маркетинговые платформы и так далее)
- Автоматизация data-pipelines, ETL-процессов
- Автоматизация построения витрин данных
- Организация CI/CD и мониторинга процессов обработки данных
- Готовность разбираться в чужом коде, ревью кода в команде
Требования
- Опыт DWH-разработки от года
- Знание Python
- Работа с Linux & Bash
Будет плюсом
- Понимание принципов работы классических СУБД
- Знакомство с экосистемой Hadoop и опыт работы с ней
- Опыт работы с ClickHouse
- Опыт организации ETL-процессов обработки данных