О проекте:
Команда DWH - занимается развитием и поддержкой корпоративного хранилища данных в Лаборатории Касперского.
Наша платформа позволяет решать важные продуктовые задачи и принимать стратегические решения в компании на основе данных.
Основное хранилище данных реализовано на MS SQL Server. Его объем исчисляется терабайтами данных и продолжает расти. Сейчас активно внедряем DataLake на базе Kafka, Airflow, Hadoop, Hive, Spark и нам необходимо развивать процессы и инфраструктуру для тестирования.
В качестве источников данных используются: базы данных, API, SFTP (файлы разных форматов), брокеры сообщений (RabbitMQ, Kafka). В команде хорошо развиты процессы и инженерные практики: написание автотестов, ревью, CI, автоматизированные мониторинги.
Основные задачи:
- Планирование и проведение необходимых видов тестирования для процессов загрузки данных в DWH, DataLake, DataVault;
- Разработка автоматизированных тестов (Python (pytest, pyspark), SQL);
- Помощь команде в анализе и решении инцидентов;
- Создание и поддержка в актуальном состоянии тестовых сред;
- Написание процессов по проверке качества данных в хранилище.
Что вам для этого нужно:
- Понимание процесса разработки и целей процесса тестирования;
- Опыт написания автотестов на Python;
- Опыт работы с базами данных. SQL на хорошем уровне;
- Знание теории тестирования (техники тестирования, планирование тестирования, тест-дизайн).
Будет плюсом:
- Понимание что такое хранилища данных, ETL-процессы. Опыт их тестирования;
- Опыт работы с Docker;
- Опыт работы со Spark;
- Опыт работы с Azure DevOps.