Data Lakehouse Engineer

Дата размещения вакансии: 25.06.2026
Работодатель: RWB (Wildberries & Russ)
Уровень зарплаты:
з/п не указана
Город:
Москва
Серпуховско-Тимирязевская линия метро Полянка
Требуемый опыт работы:
От 3 до 6 лет

Ищем сильного инженера для построения и развития Data Lakehouse платформы. Нам нужен человек, который умеет не просто писать пайплайны, а способен спроектировать и построить DLH с нуля: принимать архитектурные решения, выбирать подходы, настраивать и оптимизировать вычислительный слой.

Вам предстоит:

  • Проектировать и развивать Data Lakehouse платформу с нуля
  • Строить надежную и масштабируемую архитектуру хранения и обработки данных
  • Разрабатывать ETL/ELT пайплайны на базе Spark, DBT и Trino
  • Глубоко понимать внутреннее устройство Spark и применять это знание для проектирования эффективных пайплайнов, оптимизации вычислений и решения проблем производительности
  • Разрабатывать кастомные плагины и компоненты для Spark: источники и форматы данных, listeners, расширения каталога и оптимизатора
  • Работать с объектным хранилищем S3 и организовывать эффективную работу с данными в Data Lake
  • Развивать слой метаданных и каталогизации данных (Polaris как metastore)
  • Управлять инфраструктурой и конфигурацией платформы через GitOps (ArgoCD, Helm)
  • Оптимизировать производительность, стоимость вычислений и хранения
  • Строить наблюдаемость платформы: метрики, дашборды и алертинг на базе Prometheus, VictoriaMetrics и Grafana
  • Взаимодействовать с продуктовой командой, понимать потребности пользователей платформы и развивать DLH как внутренний продукт

Вы нам подходите, если:

  • Имеете практический опыт построения Data Lakehouse платформ или крупных Data Platform решений.
  • Имеете опыт проектирования DLH с нуля будет большим преимуществом
  • Владеете глубоким пониманием архитектуры Spark: execution model, partitioning, memory management, shuffle, оптимизация запросов
  • Имеете опыт оптимизации Spark jobs и SQL-запросов
  • Владеете хорошим пониманием принципов работы форматов данных и таблиц в Data Lake (Iceberg/Parquet и аналогичных технологий)
  • Имеете опыт работы с Trino и понимание принципов распределенного выполнения запросов
  • Имеете опыт работы с Airflow и построения сложных data workflows, разработки кастомных операторов, сенсоров, хуков и плагинов
  • Опыт работы с Kubernetes и контейнеризированными платформами
  • Опыт управления инфраструктурой через GitOps (ArgoCD, Helm)
  • Инженерный подход, самостоятельность и способность принимать архитектурные решения
  • Продуктовое мышление: способность понимать потребности пользователей платформы и развивать удобный и надежный data-продукт

Будет плюсом, если вы:

  • Имеете опыт разработки кастомных плагинов и компонентов для Spark на Scala/Java (не PySpark)
  • Имеете опыт построения self-service Data Platform
  • Имеете опыт проектирования multi-tenant Data Lakehouse
  • Имеете опыт настройки безопасности, governance и управления доступами
  • Имеете опыт работы с Iceberg catalog / Polaris
  • Имеете опыт оптимизации стоимости вычислений и хранения данных в облаке
  • Имеете опыт работы в роли Tech Lead / Lead Data Engineer: принятие технических решений, определение архитектурных подходов и развитие инженерных практик
  • Имеете опыт проведения архитектурных ревью, оценки технических решений и выбора технологий
  • Имеете опыт принятия компромиссов между скоростью разработки, надежностью, стоимостью инфраструктуры и долгосрочной поддерживаемостью решения

Наш стек технологий:

  • Аpache Spark
  • DBT (Spark DBT, Trino DBT)
  • Trino
  • Apache Airflow
  • S3-совместимое объектное хранилище
  • Kubernetes
  • Apache Polaris (metastore)
  • GitOps (ArgoCD, Helm)
  • Prometheus, VictoriaMetrics, Grafana