Data Engineer Senior

Дата размещения вакансии: 11.01.2026
Работодатель: WMT
Уровень зарплаты:
з/п не указана
Город:
Самара
Требуемый опыт работы:
Более 6 лет

Обязанности:

Проектирование и разработка:
• Проектирование и разработка ETL/ELT-процессов в Apache Airflow для обработки
миллиардов событий
• Разработка витрин данных с использованием кодогенерации и автоматизации
• Проектирование инкрементальных загрузок и механизмов снятия снепшотов
• Репликация данных из внешних источников (Cassandra, PostgreSQL и др.) через
Spark
• Работа с хеш-функциями для генерации суррогатных ключей и обеспечения
параллельной загрузки

Оптимизация и производительность:
• Оптимизация производительности ETL-процессов и SQL-запросов (YQL,
ClickHouse)
• Работа с бакфилами (backfill) — пересчет исторических данных
• Настройка и оптимизация ресурсных пулов в YTsaurus
Архитектура и масштабирование:
• Участие в архитектурных решениях по развитию платформы
• Проектирование гибкой модели данных, допускающей добавление новых
источников без разрушения существующей схемы
• Обеспечение горизонтальной масштабируемости решений
• Работа с Infrastructure as Code (GitLab CI/CD, Kubernetes)
Работа с командой:
• Code review и соблюдение стандартов разработки
• Документирование ETL-процессов

Требования:

• Опыт работы Data Engineer от 5 лет, из них минимум 2 года в роли Senior
• Глубокое знание Apache Airflow (разработка DAG’ов, кастомные операторы,
сенсоры)
• Экспертное владение SQL и понимание оптимизации запросов
• Опыт проектирования и построения Data Warehouse (Kimball, Data Vault, или
аналоги)
• Уверенное владение Python для ETL-разработки
• Опыт работы с Apache Spark (PySpark/Scala)
• Понимание принципов работы с большими данными и распределенными системами
• Опыт работы с колоночными СУБД
• Знание методологий инкрементальной загрузки
• Опыт с системами контроля версий (Git) и CI/CD

Будет большим плюсом:
• Опыт работы с YTsaurus (YandexTable) или другими MapReduce-системами
• Опыт работы с графовыми БД (Neo4j)
• Знание методологий Data Vault 2.0
• Опыт кодогенерации для ETL-процессов
• Опыт репликации данных из различных источников (Debezium, Kafka и др.)
• Знание Apache Cassandra
• Опыт работы с S3-совместимыми хранилищами (MinIO)

Условия:

​​​​​​​- высокий уровень дохода
- новые технологии
- интересные задачи