з/п не указана
Москва
Рочдельская улица 15с13
Рочдельская улица 15с13
Более 6 лет
Чем предстоит заниматься:
- Сбором данных: Интеграция данных из разнородных источников (реляционные и NoSQL БД, API, лог-файлы, потоковые данные и т.д.);
- Трансформацией (ETL/ELT): Проектирование, разработка, построение и поддержка надежных, масштабируемых и эффективных ETL/ELT-процессов (DAG-пайплайнов в Airflow). Формирование согласованных слоев данных (Data Warehouse, Data Marts);
- Хранилищем и моделью данных: Проектирование и оптимизация схем данных в колоночных хранилищах (у нас это ClickHouse и Vertica). Настройка партиционирования, индексов и распределения для максимальной производительности;
- Качеством и мониторингом: Внедрение автоматических проверок целостности и качества данных, создание системы алертов и мониторинга пайплайнов;
- Доступом и безопасностью: Управление правами доступа к данным, ролевой моделью и обеспечение требований со стороны информ.безопасности;
- Инструментами и автоматизацией: Настройка CI/CD для процессов данных, оркестрация с помощью Airflow;
- Поддержкой self-service: Участие во внедрении и поддержке Data Catalog для обеспечения видимости данных для бизнес-пользователей.
Что мы ожидаем от будущего члена команды:
- Опыт коммерческой разработки на позиции Data Engineer от 2-х лет;
- Глубокое знание SQL и опыт работы с колоночными БД (ClickHouse, Vertica);
- Опыт работы с языком программирования Python;
- Понимание принципов построения ETL/ELT процессов и DAG;
- Опыт работы с оркестраторами задач (Airflow, Prefect, Dagster, Luigi);
- Знание систем контроля версий (Git);
- Опыт работы с инструментами CI/CD;
- Умение проектировать и поддерживать хранилища данных (знание подходов Kimball, Data Vault — будет плюсом);
- Понимание основ контейнеризации (Docker, Kubernetes);
- Будет сильным преимуществом :Опыт работы с потоковой обработкой данных (Kafka, Kafka Connect, Kafka Streams, Apache Pulsar);
- Опыт работы с одним из современных фреймворков для обработки данных: Apache Spark, Apache Flink или аналоги;
- Знание NoSQL баз данных;
- Опыт работы с дата-каталогами (Amundsen, DataHub) и инструментами для обеспечения качества данных (Great Expectations, dbt tests).
Будем рады предложить:
- Стать частью крупной стабильной компании, разрабатывающей и производящей высокотехнологичное оборудование и устройства, а также ежегодно увеличивающей долю рынка и финансовые показатели;
- Работу в команде профессионалов, всегда готовой поддержать и поделиться опытом;
- Рабочее место в красивом и удобном лофт-офисе на территории БЦ «Трехгорная мануфактура», 10-15 минут от метро Краснопресненская/Улица 1905 года;
- Гибридный формат работы;
- График работы с 10:00 до 19:00 с гибким началом и окончанием рабочего дня;
- Конкурентный уровень заработной платы;
- Оформление по ТК РФ с первых дней работы.