Data Engineer

Дата размещения вакансии: 15.09.2025
Работодатель: Интерфакс
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

Мы создаем и развиваем высоконагруженную платформу данных, которая является фундаментом для ключевых продуктов нашей компании. Наши решения напрямую влияют на принятие стратегических решений тысячами клиентов в режиме реального времени. Если ты хочешь работать с данными, которые действительно важны, и строить системы, которые будут обрабатывать терабайты информации, — тебе к нам.

Твоя миссия: проектировать и строить надежные, масштабируемые и эффективные системы хранения и обработки данных, превращая сырые данные в структурированные и качественные информационные активы для аналитиков, data-ученых и конечных пользователей.

Вот что ты будешь делать:

  • Строить ETL/ELT-конвейеры нового поколения: Проектировать и внедрять надежные пайплайны для обработки как потоковых, так и пакетных данных, используя современные инструменты (Dagster/Airflow).

  • Создавать архитектуру данных: Разрабатывать многослойное хранилище (Data Lakehouse) с использованием передовых форматов (Apache Iceberg, Parquet) и оптимизировать его для работы с Trino и Spark.

  • Воплощать в жизнь принципы Data Reliability Engineering: Внедрять процессы мониторинга качества данных (Data Quality) и наблюдаемости (Data Observability), чтобы данные были всегда достоверными и доступными.

  • Проектировать и предоставлять данные: Разрабатывать витрины данных и API, которые предоставят аналитикам и клиентам удобный и быстрый доступ к нужной информации.

  • Влиять на технологический стек: Участвовать в выборе и внедрении новых технологий, постоянно улучшая и масштабируя нашу платформу.

Технологический стек, на котором ты будешь работать:

  • Оркестрация: Dagster, Apache Airflow

  • Обработка: Python 3.x, Apache Spark (PySpark), Apache Kafka, Faust

  • Хранение: PostgreSQL, ClickHouse, S3-совместимые хранилища

  • Форматы: Apache Iceberg, Parquet, Avro

  • SQL-движки: Trino (Starburst), Apache Spark SQL

  • Инфраструктура: Docker, Kubernetes, Yandex Cloud / AWS / GCP

  • Мониторинг: Prometheus, Grafana, ELK Stack

Мы ищем тебя, если у тебя есть:

  • Опыт коммерческой разработки ETL/ELT-процессов на Python (от 2-х лет).

  • Отличное знание SQL и глубокий опыт работы с различными СУБД (PostgreSQL, ClickHouse).

  • Практический опыт проектирования и построения DWH / Data Lakehouse.

  • Опыт работы с одним из фреймворков оркестрации (Dagster, Airflow, Prefect).

  • Понимание принципов потоковой обработки данных (Kafka).

  • Умение проектировать оптимальные схемы хранения данных и знание колоночных форматов (Parquet).

  • Готовность работать с современным и быстро evolving-стеком.

Будет серьезным плюсом, если ты знаком с любым из этого:

  • Apache Iceberg, Delta Lake, Hudi

  • Trino (Presto SQL), Apache Drill

  • Apache Spark (PySpark)

  • Концепциями Data Mesh и Data Product

  • Настройкой мониторинга качества данных (Data Quality)

  • Kubernetes и облачными платформами (YC, AWS, GCP)

  • Предметной областью (финансовые рынки, управление рисками)

Что мы предлагаем, кроме интересных задач?

  • Работа с флагманским продуктом: Твои решения будут влиять на продукт компании с высокой бизнес-ценностью.

  • Современный стек и экспертиза: Мы используем Dagster, Iceberg, Trino — ты будешь работать с трендовыми и востребованными технологиями, а не с устаревшим легаси.

  • Влияние и ответственность: Возможность напрямую влиять на архитектуру и выбор технологий с первого дня.

  • Команда единомышленников: Работа в сильной и мотивированной команде экспертов, готовых делиться знаниями и поддерживать друг друга.

  • Гибридный формат: Современный подход к работе — мы ценим результат, а не присутствие в офисе с 9 до 6.

  • Развитие: Мы заинтересованы в твоем росте и готовы предоставлять возможности для обучения и посещения конференций.