ЗАДАЧИ:
• Агрегация и анализ больших данных из разных систем НРД
• Разработка и поддержка аналитических dashboard-ов для руководства и сотрудников НРД. с использованием инструментов анализа и визуализации данных.
• Разработка и поддержка процессов ETL с использованием Apache NiFi/Airflow.
• Интеграция различных источников данных и обеспечение их качества.
• Автоматизация процессов сбора, обработки и загрузки данных. • Описание ETL-процессов и создание технической документации в wiki и в коде.
• Исследование новых инструментов для создания dashboard-ов и визуализации данных
ПО:
• Apache NiFi/Airflow)
• Apache Superset
• FineBI
• Grafana
• Python
• Docker
• Bash
• Postgress
• Dbeaver/ pgAdmin
ТРЕБОВАНИЯ:
• Опыт работы с инструментами построения аналитики и dashboard-ов (Grafana, Apache Superset, FineBI (PowerBI))
• Понимание процедур ETL/ELT (Extract, Transform, Load).
• Знание и опыт работы с Apache NiFi/AirFlow.
• Опыт работы с базами данных, SQL и технологиями хранения данных
• Опыт работы с большими данными и распределенными системами.
• Знание принципов построения надежных и отказоустойчивых ETL-процессов.
• Навыки написания скриптов на языке программирования Python.
• Навыки работы с библиотеками pandas, numpy, scipy, matplotlib, seaborn, statsmodels, scikit-learn, streamlit
• Знание основ статистики – типы распределений, критерии, способы анализа данных (корреляционный анализ).
• Опыт работы с системами контроля версий (в компании используется Gitlab).
Будут преимуществом:
• Навыки развертывания простых проектов (MVP)
• Опыт работы с CI/CD системами
• Знание контейнерных технологий (Docker, Kubernetes).
• Знание систем мониторинга и логирования (Prometheus, Grafana, ELK stack).