Ленинградское шоссе 39Ас3
Команда DWH занимается развитием и поддержкой корпоративного хранилища данных в Лаборатории Касперского. Наша платформа позволяет решать важные продуктовые задачи и принимать стратегические решения в компании на основе данных.
Основное хранилище данных реализовано на MS SQL Server. Его объем исчисляется терабайтами данных и продолжает расти. Сейчас активно в недряем DataLake на базе Kafka, Airflow, Hadoop, Hive, Spark и нам необходимо развивать процессы и инфраструктуру для тестирования.
В качестве источников данных используются: базы данных, API, SFTP (файлы разных форматов), брокеры сообщений (RabbitMQ, Kafka).
В команде хорошо развиты процессы и инженерные практики: написание автотестов, ревью, CI, автоматизированные мониторинги.
Задачи:
- Планирование и проведение необходимых видов тестирования для процессов загрузки данных в DWH, DataLake, DataVault;
- Разработка автоматизированных тестов (Python (pytest, pyspark), SQL); Помощь команде в анализе и решении инцидентов;
- Создание и поддержка в актуальном состоянии тестовых сред; Написание процессов по проверке качества данных в хранилище;
Мы ожидаем от вас:
- Понимание процесса разработки и целей процесса тестирования;
- Опыт написания автотестов на Python;
- Опыт работы с базами данных. SQL на хорошем уровне;
- Знание теории тестирования (техники тестирования, планирование тестирования, тест-дизайн).
Будет плюсом:
- Понимание что такое хранилища данных, ETL-процессы.
- Опыт их тестирования;
- Опыт работы с Docker;
- Опыт работы со Spark;
- Опыт работы с Azure DevOps