3-я Рыбинская улица 18с22
Обязанности:
-
Разработка и администрирование DWH: Поддержка и развитие хранилищ на MS SQL Server.
-
Сбор и интеграция данных (ETL/ELT): Настройка пайплайнов загрузки данных из разнородных источников:
-
Оркестрация процессов через Apache Airflow и потоковая обработка через Apache Kafka.
-
Настройка распределенных потоков данных через Apache NiFi.
-
Загрузка "сырых" данных по API REST и из файлов Excel .
-
-
Создание витрин данных и семантического слоя: Трансформация сырых данных в согласованные витрины для отчетов, дашбордов и AI-агентов.
-
MDM и Data Governance: Участие в создании и поддержке мастер-данных (справочники клиентов, продуктов и др.), формирование "конституции данных" (каталог, метрики, владельцы).
-
Мониторинг и контроль качества: Разработка систем мониторинга поставки, поиск «мертвых» данных, настройка алертов при сбоях и ухудшении качества данных.
-
Автоматизация и оптимизация: Ускорение пайплайнов, снижение накладных расходов на хранение и обработку, внедрение новых инструментов.
Требования:
-
Базы данных: Глубокое знание MS SQL Server (T-SQL, индексы, оптимизация запросов, настройка репликаций).
-
Инструменты движения данных: Уверенная работа с Apache Airflow (написание DAG'ов, сенсоры, операторы) и Apache NiFi (процессинг, потоки, маршрутизация). Понимание основ работы Apache Kafka (топики, партиции, Consumer/Producer).
-
Интеграция: Опыт работы с REST/SOAP API. Опыт загрузки неструктурированных и табличных данных из Excel.
-
Моделирование данных: Понимание Data Vault, Star/Snowflake схем, построение витрин данных.
-
DevOps & CI/CD: Уверенное владение Git, автоматизация деплоя скриптов DWH и пайплайнов.
-
MDM/Каталог: Понимание концепции Master Data Management (MDM) и важности ведения каталога данных.
- Понимание OLAP-кубов и семантических слоев.
Будет большим плюсом:
-
Опыт работы с системами Data Quality (DQ) и Data Observability.
- Опыт работы с Apache Spark