ETL разработчик/Data engineer

Дата размещения вакансии: 09.01.2025

Работодатель: Тарасова Ольга Сергеевна

Уровень зарплаты:

от 300000 RUR

Город:

Москва

Требуемый опыт работы:

От 3 до 6 лет

Современная российская IT компания, специализирующаяся на внедрении инструментов для повышения эффективности бизнес-процессов ищет будущего коллегу - ETL разработчика уровня Middle+ и выше.

Нам есть что тебе предложить - уникальный проект, в котором предстоит работать, не имеющий аналогов в своей нише.

Оставляй свой отклик, оперативно свяжемся и обсудим детали!

Условия:

З/п до 350 000 на руки (готовы обсуждать) - зависит от уровня специалиста;
Формат работы: удаленка, 5/2 с гибким началом и окончанием рабочего дня;
Официальное трудоустройство по ТК РФ c первого дня;
Аккредитованная IT компания (льготная ипотека, отсрочка от призыва и бронь от мобилизации);
Дополнительные условия: ДМС;
Ежегодная индексация заработной платы.

Задачи:

Совместная работа с DBA-архитектором на проектах;
Организация ETL-процессов выгрузки данных Apache Hudi таблиц из S3 в ODS-слой на Greenplum;
Разработка трансформации данных ODS-слоя в DDS-слой;
Имплементация различных CDC-методов (инкрементальный JOIN с двумя наборами данных, вычисление хэша с последующим diff);
Разработка plpgsql-функций или аналогичной логики на Spark для трансформации данных, на основе логики существующего Python/T-SQL кода (MSSQL);
Разработка ad-hoc аналитических запросов под PostgreSQL/Greenplum;
Разработка DataQuality-тестов на скриптовом ETL (Python, Java или Scala);
Работа с AirFlow-операторами, разработка DAGs;
Мониторинг и поиск проблемных мест при эксплуатации ADB (Greenplum).

Требования:

Понимание различий PostgreSQL & Greenplum;
Понимание механизма работы QE/QD (query executor & query dispatcher), и как исполняется SQL-запрос в Greenplum-кластере, включая планы запросов (redistribute, broadcast, gather motions);
Понимание механизма дистрибьюции данных на сегмент-инстансах Greenplum, и как исправлять перекосы данных (skews);
Понимание разницы механизмов работы Heap & AOP (append-optimzed) таблиц в Greenplum, включая понимание “ограничений” колоночного формата хранения данных;
Понимание различий между логическими моделями: звезды, снежинки и DataVault.
Опыт на аналогичной должности от 3-х лет;
Опыт с технологическим стеком: Python(middle), SQL (senior), Spark обязателен.

Откликнуться

ETL разработчик/Data engineer

Похожие вакансии: Москва