Яндекс — одна из немногих компаний в мире, оперирующих эксабайтами данных, которые нужно эффективно хранить, обрабатывать и передавать между различными системами. Для решения этих задач мы создали и развиваем распределённую платформу хранения и обработки данных YTsaurus. Практически каждый сервис Яндекса использует её. Недавно мы выложили код платформы в открытый доступ.
Одной из важных частей YTsaurus является SPYT — Apache Spark в качестве compute-движка поверх данных в YTsaurus. SPYT активно используют внешние и внутренние сервисы (например, для запуска ETL-процессов и ad-hoc-аналитики).
Отличительная особенность SPYT — глубокая интеграция между Apache Spark и YTsaurus, которая позволяет учитывать метаданные для эффективной обработки. Так, SPYT поддерживает транзакции YTsaurus и применяет знание о сортировке таблиц для исключения shuffle-фазы при выполнении операции JOIN. Помимо этого, SPYT использует YTsaurus в качестве среды исполнения для запуска кластеров Spark в облачной манере, благодаря чему в YTsaurus одновременно могут работать десятки кластеров SPYT. Подробнее об этом мы рассказывали на HighLoad++.
Мы ищем технического менеджера, который поможет нам развивать SPYT и будет заниматься сложными и амбициозными задачами. Примеры вызовов, которые стоят перед нами:
- сделать SPYT инструментом номер один для ETL- и ELT-процессов поверх YTsaurus;
- выстроить процесс поддержки и обмена опытом пользователей SPYT внутри Яндекса;
- исследовать современные практики использования Apache Spark on-premise и в облаках и применять их в SPYT.
Мы — команда увлечённых людей, любим вызовы и готовы делиться знаниями. Приходите, если вам интересно развивать высоконагруженный инфраструктурный сервис и популяризовать YTsaurus как опенсорс-продукт.
Какие задачи вас ждут
Взаимодействие с пользователями
Вам предстоит много общаться с внутренними и внешними пользователями, участвовать в формировании лучших практик использования инфраструктуры. Нужно будет работать над снижением порога входа и развивать комьюнити вокруг YTsaurus и, в частности, вокруг SPYT.
Технические вызовы
Вы будете вести внутренние инфраструктурные проекты и участвовать в интеграционных проектах вместе с несколькими командами разработки, эксплуатации и тестирования. Например, работать над оптимизациями в SPYT и добиваться лучших показателей, чем ванильный Apache Spark.
Выстраивание рабочих процессов
Вам нужно будет сотрудничать с разработчиками других инфраструктурных сервисов, критически анализировать существующие рабочие процессы, находить проблемные места, предлагать и внедрять улучшения. Например, организовывать регулярный процесс обновления версии Apache Spark.
Мы ждем, что вы
- Последний год работали в аналогичной должности
- Управляли проектами и продуктами
- Работали с командой разработчиков, точно и внятно выражаете свои мысли устно и письменно, разговариваете с разработчиками на одном языке
- Непосредственно разрабатывали программное обеспечение
- Составляли FAQ и пользовательскую документацию
- Получили высшее техническое или математическое образование
- Понимаете основные принципы построения распределённых систем хранения и обработки данных, работали с Hadoop, Spark или другими распределёнными системами
- Пишете на Python или любом другом языке программирования, умеете писать SQL-запросы
- Коммуникабельны, умеете расставлять приоритеты и решать задачи в срок, управлять обсуждениями и фиксировать результаты