О компании:
Присоединяйтесь к нашей команде для работы над масштабными data-driven проектами в ведущих компаниях из различных секторов: от финтеха и банков до e-commerce, ритейла и телекома. Мы ищем талантливых Инженеров данных уровней Middle, Senior и Lead, готовых строить и развивать современные платформы данных, разрабатывать надежные ETL/ELT-пайплайны и обеспечивать высокое качество данных для аналитики и машинного обучения.
Чем предстоит заниматься:
-
Проектирование и разработка пайплайнов: Создание, развитие и поддержка ETL/ELT-процессов для сбора, обработки и загрузки данных из разнообразных источников (реляционные СУБД, API, логи, стриминговые платформы).
-
Архитектура данных: Проектирование архитектуры хранилищ данных (DWH, Data Lake), моделей данных и витрин (Data Marts) для аналитических и ML-задач, включая слои Raw, ODS и DDS.
-
Обработка больших данных: Разработка на Python/Java/Scala с использованием Apache Spark для распределенной обработки больших объемов данных.
-
Оркестрация и мониторинг: Создание, оптимизация и мониторинг пайплайнов с помощью Apache Airflow; настройка SLA, retries и алертинга.
-
Обеспечение качества данных: Внедрение практик Data Quality (DQ), разработка тестов, профилирование данных, реализация проверок на консистентность и целостность.
-
Работа с базами данных: Написание и оптимизация сложных SQL-запросов для MPP-систем (Greenplum, ClickHouse) и классических СУБД (PostgreSQL).
-
Подготовка данных для ML: Построение и поддержка пайплайнов для подготовки признаков (feature engineering) и датасетов для команд Data Science.
-
Взаимодействие с командой: Тесное сотрудничество с аналитиками данных, ML-инженерами, DevOps-специалистами и бизнес-заказчиками для реализации end-to-end решений.
-
(Для Lead): Управление командой инженеров данных, менторство, принятие ключевых архитектурных решений, планирование и распределение задач, развитие стека технологий и инженерных практик.
Наши ожидания:
-
Опыт работы: От 2-3 лет (Middle), от 5 лет (Senior), от 5-7 лет с опытом лидирования (Lead) в роли инженера данных.
-
SQL: Экспертный уровень владения SQL, включая аналитические и оконные функции, оптимизацию сложных запросов под большие объемы данных.
-
Программирование: Уверенное владение Python (предпочтительно) или Java/Scala для разработки data-пайплайнов.
-
ETL/ELT: Глубокое понимание принципов построения ETL/ELT, архитектуры DWH и Data Lake.
-
Big Data: Практический опыт работы с Apache Spark и экосистемой Hadoop (HDFS, Hive, YARN).
-
Оркестрация: Опыт работы с оркестратором Apache Airflow (разработка и поддержка DAG'ов).
-
Базы данных: Опыт работы с MPP-системами (Greenplum, ClickHouse) и реляционными СУБД (в первую очередь PostgreSQL).
-
Инструменты и методологии: Опыт работы с Git, Jira, Confluence; понимание принципов Agile (Scrum/Kanban).
-
Soft Skills: Сильные аналитические способности, системное мышление, проактивность, ответственность, умение работать в команде и самостоятельно, способность быстро разбираться в сложных системах и бизнес-доменах.
Будет плюсом:
-
Опыт работы в финтех-индустрии (банки, инвестиции) или крупном ритейле.
-
Опыт работы со стриминговыми данными и брокерами сообщений (Apache Kafka, RabbitMQ, NiFi).
-
Опыт использования dbt (Data Build Tool) для трансформации данных.
-
Знание методологий моделирования данных (Data Vault 2.0).
-
Опыт работы с контейнеризацией (Docker, Kubernetes) и понимание CI/CD процессов для данных (DataOps).
-
Опыт работы с облачными платформами (Yandex.Cloud, AWS, Azure, GCP) и их data-сервисами.
-
Навыки администрирования СУБД и компонентов Big Data.
-
Опыт построения систем мониторинга и логирования (Prometheus, Grafana, ELK).
Мы предлагаем:
-
Работу над масштабными и технологически сложными проектами в стабильной компании.
-
Возможности для профессионального и карьерного роста в самых востребованных направлениях ИТ.
-
Сильную команду экспертов и комфортную рабочую атмосферу.
-
Конкурентную заработную плату, бонусы и социальный пакет.
-
Гибкий график и возможность удаленной работы (в зависимости от проекта).