Санкт-Петербург
4 линия метро Площадь Александра Невского-2
4 линия метро Площадь Александра Невского-2
Команда Data Platform занимается всей инфраструктурой для работы с данными в ОК. Наша платформа построена как на проверенных решениях с открытым исходным кодом (Hadoop, Kafka, Spark, Zeppelin и не только), так и на решениях собственной разработки, заточенных под работу 24/7 в условиях высоких нагрузок. Мы ищем человека, который поможет развивать эту платформу, внедряя новые решения и дорабатывая существующие.
Особенности:
- big data: 3 hdfs-кластера общим объёмом ~200PB;
- high load: обслуживаем десятки тысяч серверов;
- high available: все серверы расположены в 6 разных дата-центрах;
- не enterprise: разрабатываем решения, которые сами же и используем;
- stack: Hadoop-3.1.x, Kafka-2.4.x, Spark-3+, ClickHouse, Airflow;
- lang: Java, Scala, Python, Bash.
Задачи:
- развитие платформы хранения и обработки больших данных OK;
- развитие аналитической инфраструктуры на базе One-Cloud для OK и других команд VK;
- миграция данных в единое хранилище в рамках холдинга.
Требования:
- хорошее знание Java/Scala;
- опыт работы и понимание внутреннего устройства: Hadoop, Spark, Airflow.
Будет плюсом опыт работы с Apache Kafka, ClickHouse.