Data Lakehouse Engineer

Дата размещения вакансии: 25.06.2026

Работодатель: RWB (Wildberries & Russ)

Уровень зарплаты:

з/п не указана

Город:

Москва
Серпуховско-Тимирязевская линия метро Полянка

Требуемый опыт работы:

От 3 до 6 лет

Ищем сильного инженера для построения и развития Data Lakehouse платформы. Нам нужен человек, который умеет не просто писать пайплайны, а способен спроектировать и построить DLH с нуля: принимать архитектурные решения, выбирать подходы, настраивать и оптимизировать вычислительный слой.

Вам предстоит:

Проектировать и развивать Data Lakehouse платформу с нуля
Строить надежную и масштабируемую архитектуру хранения и обработки данных
Разрабатывать ETL/ELT пайплайны на базе Spark, DBT и Trino
Глубоко понимать внутреннее устройство Spark и применять это знание для проектирования эффективных пайплайнов, оптимизации вычислений и решения проблем производительности
Разрабатывать кастомные плагины и компоненты для Spark: источники и форматы данных, listeners, расширения каталога и оптимизатора
Работать с объектным хранилищем S3 и организовывать эффективную работу с данными в Data Lake
Развивать слой метаданных и каталогизации данных (Polaris как metastore)
Управлять инфраструктурой и конфигурацией платформы через GitOps (ArgoCD, Helm)
Оптимизировать производительность, стоимость вычислений и хранения
Строить наблюдаемость платформы: метрики, дашборды и алертинг на базе Prometheus, VictoriaMetrics и Grafana
Взаимодействовать с продуктовой командой, понимать потребности пользователей платформы и развивать DLH как внутренний продукт

Вы нам подходите, если:

Имеете практический опыт построения Data Lakehouse платформ или крупных Data Platform решений.
Имеете опыт проектирования DLH с нуля будет большим преимуществом
Владеете глубоким пониманием архитектуры Spark: execution model, partitioning, memory management, shuffle, оптимизация запросов
Имеете опыт оптимизации Spark jobs и SQL-запросов
Владеете хорошим пониманием принципов работы форматов данных и таблиц в Data Lake (Iceberg/Parquet и аналогичных технологий)
Имеете опыт работы с Trino и понимание принципов распределенного выполнения запросов
Имеете опыт работы с Airflow и построения сложных data workflows, разработки кастомных операторов, сенсоров, хуков и плагинов
Опыт работы с Kubernetes и контейнеризированными платформами
Опыт управления инфраструктурой через GitOps (ArgoCD, Helm)
Инженерный подход, самостоятельность и способность принимать архитектурные решения
Продуктовое мышление: способность понимать потребности пользователей платформы и развивать удобный и надежный data-продукт

Будет плюсом, если вы:

Имеете опыт разработки кастомных плагинов и компонентов для Spark на Scala/Java (не PySpark)
Имеете опыт построения self-service Data Platform
Имеете опыт проектирования multi-tenant Data Lakehouse
Имеете опыт настройки безопасности, governance и управления доступами
Имеете опыт работы с Iceberg catalog / Polaris
Имеете опыт оптимизации стоимости вычислений и хранения данных в облаке
Имеете опыт работы в роли Tech Lead / Lead Data Engineer: принятие технических решений, определение архитектурных подходов и развитие инженерных практик
Имеете опыт проведения архитектурных ревью, оценки технических решений и выбора технологий
Имеете опыт принятия компромиссов между скоростью разработки, надежностью, стоимостью инфраструктуры и долгосрочной поддерживаемостью решения

Наш стек технологий:

Аpache Spark
DBT (Spark DBT, Trino DBT)
Trino
Apache Airflow
S3-совместимое объектное хранилище
Kubernetes
Apache Polaris (metastore)
GitOps (ArgoCD, Helm)
Prometheus, VictoriaMetrics, Grafana

Откликнуться

Data Lakehouse Engineer

Похожие вакансии: Москва