Яндекс — одна из немногих компаний в мире, оперирующих экзабайтами данных, которые нужно уметь эффективно хранить, обрабатывать и передавать между различными системами. Для решения этих задач мы создали и развиваем распределённую платформу хранения и обработки данных YTsaurus. Недавно мы выложили код платформы в открытый доступ. Практически каждый сервис Яндекса использует её для хранения и обработки данных.
Одной из важных частей YTsaurus является SPYT — Apache Spark в качестве compute-движка поверх данных в YTsaurus. SPYT активно используют внешние и внутренние сервисы (например, для запуска ETL-процессов и ad-hoc аналитики).
Отличительная особенность SPYT — глубокая интеграция между Apache Spark и YTsaurus, которая позволяет учитывать метаданные для эффективной обработки. Так, SPYT поддерживает транзакции YTsaurus и применяет знание о сортировке таблиц для исключения shuffle-фазы при выполнении операции JOIN. Помимо этого SPYT использует YTsaurus в качестве среды исполнения для запуска кластеров Spark в облачной манере, благодаря чему в YTsaurus одновременно могут работать десятки кластеров SPYT.
Мы ищем технического менеджера проектов, который поможет нам развивать SPYT и будет заниматься сложными и амбициозными задачами. Примеры вызовов, которые стоят перед нами:
- сделать SPYT инструментом номер один для ETL- и ELT-процессов поверх YTsaurus;
- выстроить процесс поддержки и обмена опытом пользователей SPYT внутри Яндекса;
- исследовать современные практики использования Apache Spark on-premise и в облаках и применять их в SPYT.
Мы — команда увлечённых людей, любим вызовы и готовы делиться знаниями. Приходите, если вам интересно развивать высоконагруженный инфраструктурный сервис и популяризовать YTsaurus как опенсорс-продукт.
Какие задачи вас ждут
- вести внутренние инфраструктурные проекты, а в перспективе отвечать за один из ключевых для компании инфраструктурных сервисов;
- участвовать в интеграционных проектах вместе с несколькими командами разработки, эксплуатации и тестирования;
- общаться с внутренними пользователями и участвовать в формировании лучших практик использования инфраструктуры;
- управлять процессом разработки и отвечать за его соответствие планам и требованиям;
- критически анализировать рабочие процессы, находить проблемные места, предлагать и внедрять улучшения;
- плодотворно сотрудничать с разработчиками и пользователями инфраструктуры.
Мы ждем, что вы
- имеете опыт управления проектами и продуктами;
- имеете опыт работы с командой разработчиков;
- непосредственно разрабатывали программное обеспечение;
- умеете расставлять приоритеты и решать задачи в срок;
- умеете управлять обсуждениями и фиксировать результаты;
- умеете составлять FAQ и пользовательскую документацию;
- точно и внятно выражаете свои мысли устно и письменно, разговариваете с разработчиками на одном языке;
- коммуникабельны;
- имеете техническое или математическое высшее образование;
- хотите стать экспертом в области инфраструктуры распределённых систем;
- последний год работали в аналогичной должности.
Будет плюсом, если вы
- понимаете основные принципы построения распределённых систем хранения и обработки данных;
- работали с Hadoop, Spark или другими распределёнными системами хранения и обработки данных;
- пишете на Python или любом другом языке программирования;
- умеете писать SQL-запросы.