Яндекс Маркет — один из крупнейших мультикатегорийных маркетплейсов, которым ежедневно пользуются миллионы людей. Наши команды помогают покупателям приобретать товары не выходя из дома и получать заказы по всей стране, а партнёрам — развивать свой бизнес, повышая продажи и привлекая новых клиентов.
Команда платформы хранилища и аналитики разрабатывает инструменты для поставки, обработки и анализа больших данных. Наши пользователи — инженеры данных и аналитики. Технологически ядро хранилища построено на системах хранения данных YTsaurus, СlickHouse. Процессы ETL мы разрабатываем на собственном фреймворке Яндекса.
Наше хранилище — одно из самых крупных в России (порядка 35 петабайт), а с учётом темпов роста бизнеса оно будет самым крупным. Высокие требования по надёжности хранилища ставят перед нашей командой далеко не тривиальные задачи, для которых нет готовых решений.
Какие задачи вас ждут
Построение систем поставки данных
Вы будете строить отказоустойчивые и масштабируемые системы поставки данных, способные обрабатывать терабайты в сутки.
Работа с технологиями
Вам предстоит внедрять LLM для улучшения эффективности разработки хранилища и анализа, развивать фреймворк поставки и обработки данных, чтобы экономить время инженера данных, а также упрощать стек для аналитиков.
Повышение эффективности
Вам нужно будет повышать эффективность платформы, используя новые подходы и технологии: потоковую аналитику, поставку real-time и новые способы агрегации данных.
Мы ждём, что вы
- Работали бэкенд-разработчиком с интеграциями и нагрузкой
- Уверенно знаете Python, можете написать собственный фреймворк
- Имеете опыт работы с заказчиками (сбор требований, ведение проектов)
Будет плюсом, если вы
- Разрабатывали на С++, Java
- Пользовались хотя бы одним MPP-хранилищем (Greenplum, ClickHouse, Vertica, Teradata и т. д.)
- Взаимодействовали с LLM, знаете, что такое Agent, MCP
- Знаете слои DWH, модели хранения данных, процессы ETL
- Знакомы с основными структурами данных и алгоритмами (особенно для работы с большими данными)
- Понимаете принципы работы хотя бы одной технологии распределённой обработки данных (Spark, Spark Streaming, Flink, MapReduce, ClickHouse, Greenplum)
- Отлично знаете PostgreSQL с точки зрения разработчика