Data Engineer

Дата размещения вакансии: 14.11.2025
Работодатель: YADRO
Уровень зарплаты:
з/п не указана
Город:
Москва
Рочдельская улица 15с13
Требуемый опыт работы:
Более 6 лет

Чем предстоит заниматься:

  • Сбором данных: Интеграция данных из разнородных источников (реляционные и NoSQL БД, API, лог-файлы, потоковые данные и т.д.);
  • Трансформацией (ETL/ELT): Проектирование, разработка, построение и поддержка надежных, масштабируемых и эффективных ETL/ELT-процессов (DAG-пайплайнов в Airflow). Формирование согласованных слоев данных (Data Warehouse, Data Marts);
  • Хранилищем и моделью данных: Проектирование и оптимизация схем данных в колоночных хранилищах (у нас это ClickHouse и Vertica). Настройка партиционирования, индексов и распределения для максимальной производительности;
  • Качеством и мониторингом: Внедрение автоматических проверок целостности и качества данных, создание системы алертов и мониторинга пайплайнов;
  • Доступом и безопасностью: Управление правами доступа к данным, ролевой моделью и обеспечение требований со стороны информ.безопасности;
  • Инструментами и автоматизацией: Настройка CI/CD для процессов данных, оркестрация с помощью Airflow;
  • Поддержкой self-service: Участие во внедрении и поддержке Data Catalog для обеспечения видимости данных для бизнес-пользователей.

Что мы ожидаем от будущего члена команды:

  • Опыт коммерческой разработки на позиции Data Engineer от 2-х лет;
  • Глубокое знание SQL и опыт работы с колоночными БД (ClickHouse, Vertica);
  • Опыт работы с языком программирования Python;
  • Понимание принципов построения ETL/ELT процессов и DAG;
  • Опыт работы с оркестраторами задач (Airflow, Prefect, Dagster, Luigi);
  • Знание систем контроля версий (Git);
  • Опыт работы с инструментами CI/CD;
  • Умение проектировать и поддерживать хранилища данных (знание подходов Kimball, Data Vault — будет плюсом);
  • Понимание основ контейнеризации (Docker, Kubernetes);
  • Будет сильным преимуществом :Опыт работы с потоковой обработкой данных (Kafka, Kafka Connect, Kafka Streams, Apache Pulsar);
  • Опыт работы с одним из современных фреймворков для обработки данных: Apache Spark, Apache Flink или аналоги;
  • Знание NoSQL баз данных;
  • Опыт работы с дата-каталогами (Amundsen, DataHub) и инструментами для обеспечения качества данных (Great Expectations, dbt tests).

Будем рады предложить:

  • Стать частью крупной стабильной компании, разрабатывающей и производящей высокотехнологичное оборудование и устройства, а также ежегодно увеличивающей долю рынка и финансовые показатели;
  • Работу в команде профессионалов, всегда готовой поддержать и поделиться опытом;
  • Рабочее место в красивом и удобном лофт-офисе на территории БЦ «Трехгорная мануфактура», 10-15 минут от метро Краснопресненская/Улица 1905 года;
  • Гибридный формат работы;
  • График работы с 10:00 до 19:00 с гибким началом и окончанием рабочего дня;
  • Конкурентный уровень заработной платы;
  • Оформление по ТК РФ с первых дней работы.