Дата-инженер (middle)

Дата размещения вакансии: 25.05.2026
Работодатель: Газпромнефть-Снабжение
Уровень зарплаты:
з/п не указана
Город:
Санкт-Петербург
Требуемый опыт работы:
От 1 года до 3 лет

Ключевые цели:

  • Построение и поддержка надёжных ETL/ELT-пайплайнов для проекта «Система автоматизированного сравнения опросных листов и технических предложений».
  • Обеспечение качества, доступности и консистентности данных для аналитики и ML-моделей.

Обязанности:

Архитектура и разработка

  • Проектирование и поддержка ETL/ELT-пайплайнов в Airflow, настройка DAG'ов и retry-политик.
  • Интеграция источников данных (PostgreSQL, Clickhouse, Kafka, NIFI), загрузка в GreenPlum/ClickHouse.
  • Реализация трансформаций, агрегаций и витрин данных для аналитики и ML.

Инфраструктура и процессы

  • Настройка мониторинга пайплайнов: алерты на задержки, ошибки, дрейф схем.
  • Автоматизация тестирования данных, контроль качества (null-checks, уникальность, консистентность).
  • Управление версиями кода пайплайнов, интеграция с Git, настройка staging/prod промоутов.

Взаимодействие и аналитика

  • Согласование контрактов данных с backend- и ML-командами, валидация форматов.
  • Анализ производительности запросов, оптимизация хранения и вычислений.
  • Документирование пайплайнов, формирование data catalog'ов и словарей метрик.

Требования:

  • Высшее образование (техническое).
  • Коммерческий опыт работы дата-инженером от 2 лет, понимание жизненного цикла данных в enterprise-среде.
  • Практический опыт оркестрации пайплайнов, работы с событийными шинами и колоночными хранилищами.
  • Понимание принципов Data Quality, мониторинга дрейфа и валидации входных данных.
  • Понимание принципов обработки больших массивов данных, map/reduce, оконные функции.

Технические навыки:

  • Уверенное владение Python 3.11+, Apache Airflow 2.7+, Celery для оркестрации задач.
  • Опыт работы с PostgreSQL, GreenPlum, ClickHouse, Kafka, Apache NIFI/Spark.
  • Понимание принципов проектирования DWH, оптимизации запросов, управления партициями и индексами.
  • Знание Docker, базовых CI/CD практик для data-пайплайнов.

Личностные качества:

  • Внимательность к консистентности данных, проактивный подход к выявлению аномалий.
  • Умение работать в условиях нечётких требований, быстро адаптировать пайплайны под изменения.
  • Коммуникабельность, готовность синхронизироваться с аналитиками и ML-инженерами.

Условия:

  • Оформление по договору ГПХ , срочный договор до конца 2026 с возможностью продления по результатам.
  • Гибкий формат работы.
  • Конкурентная проектная ставка, прозрачная система приёмки этапов.
  • Доступ к корпоративным ресурсам, современному стеку и техническому менторству.
  • Возможность перехода на постоянную основу по итогам проекта.