Леонтьевский переулок 21/1с1
Мы продуктовая ad-tech команда. Обрабатываем большие потоки событий (показы, клики, конверсии), строим атрибуцию, антифрод и пользовательскую идентификацию.
Работаем с высоконагруженным DWH и near-real-time аналитикой.
Ищем data-engineer, который будет заниматься инженерной частью данных: пайплайнами, хранением, оптимизацией и надежностью.
Чем предстоит заниматься
DWH и хранение данных
- Проектирование таблиц и витрин (raw → stage → mart)
- Партиционирование, TTL, дедупликация
- Schema evolution
- Оптимизация стоимости хранения
ETL/ELT пайплайны
- Разработка DAG’ов в Airflow
- Инкрементальные загрузки
- Исторические перерасчёты (backfill)
- Обработка late events
- Идемпотентные пайплайны и ретраи
Обработка больших объемов данных
- Сложные join’ы по user identity
- Сборка цепочек событий
- Подготовка витрин для аналитики
- Работа с массивами и nested структурами
Оптимизация
- Поиск узких мест в запросах
- Переписывание тяжелых SQL
- Минимизация чтения данных
- Оптимизация нагрузки на кластер
Надежность данных
- Контроль качества данных
- Алерты и проверки
- Разбор инцидентов
- Поддержка production-витрин
Наш стек
- ClickHouse
- Trino
- Iceberg / Data Lake
- S3-хранилище
- Airflow
- Python
- Parquet / JSON
(Ожидаем понимание принципов, а не обязательно опыт со всеми технологиями)
Требования
Обязательно
- Уверенный SQL (join, window functions, агрегаты)
- Опыт разработки ETL-процессов
- Python для обработки данных
- Понимание партиционирования и инкрементальных загрузок
- Опыт работы с большими таблицами (десятки/сотни миллионов строк)
- Понимание идемпотентности, ретраев, backfill
Будет плюсом
- ClickHouse / Presto / Trino
- Airflow
- Data Lake (Iceberg / Hive / Hudi)
- Event-based системы
- Highload или ad-tech проекты
Условия
- Работа с большими объемами данных
- Влияние на архитектуру
- Инженерные задачи уровня production-DWH
- Гибкий формат работы
- Конкурентная зарплата (обсуждается по результатам интервью)