Мы ищем опытного специалиста для создания единой корпоративной платформы данных в рамках ИИ-трансформации компании. Задача — инвентаризировать, консолидировать и организовать управление данными для обеспечения ИИ-решений качественной информацией.
Обязанности:
Инвентаризация и аудит данных:
- Проведение комплексной инвентаризации данных компании из различных источников
- Анализ и документирование существующих источников данных, форматов и систем хранения
- Оценка качества, полноты и актуальности данных
- Выявление критических данных для ИИ-решений и бизнес-процессов
Проектирование и построение хранилища данных:
- Разработка архитектуры единого корпоративного хранилища данных
- Проектирование схем данных и моделей для различных доменов (геология, проектирование, строительство, финансы)
- Создание и оптимизация ETL/ELT пайплайнов для миграции и загрузки данных
- Обеспечение масштабируемости и производительности хранилища
Миграция данных:
- Планирование и выполнение миграции данных из разрозненных источников
- Разработка скриптов и процессов для трансформации и очистки данных
- Валидация корректности миграции и целостности данных
- Минимизация рисков потери данных при переносе
Управление качеством данных:
- Разработка и внедрение процессов контроля качества данных
- Создание правил валидации и мониторинга качества
- Автоматизация процессов очистки и обогащения данных
Управление доступом и безопасность:
- Проектирование и реализация системы управления доступом к данным
- Настройка ролевых моделей и политик безопасности
- Обеспечение соответствия требованиям по защите персональных и конфиденциальных данных
- Аудит и мониторинг доступа к данным
Data Governance:
- Участие в разработке политик и стандартов управления данными
- Создание каталога данных и метаданных
- Документирование процессов и процедур работы с данными
- Взаимодействие с владельцами данных и бизнес-подразделениями
Требования:
Обязательные навыки:
- Python/SQL — уверенное владение для разработки ETL-процессов и работы с данными
- Реляционные БД: опыт работы с PostgreSQL, MySQL или MS SQL Server
- NoSQL базы данных: практический опыт работы с MongoDB, Cassandra, Redis или аналогами
- ETL/ELT инструменты: практический опыт с Apache Airflow, dbt, Pentaho или аналогами
- Системы очередей: опыт работы с Kafka, RabbitMQ или аналогами
- Хранилища данных: понимание принципов построения DWH, опыт работы с ClickHouse, Greenplum или аналогами
- Работа с большими объемами данных: опыт обработки и трансформации больших датасетов
- Версионирование: Git для управления кодом и конфигурациями
- Понимание принципов нормализации и моделирования данных
Желательные навыки:
- Знание принципов Data Governance и Data Quality Management
- Знание Docker, Kubernetes для контейнеризации решений
- Знание инструментов каталогизации данных (Apache Atlas, DataHub, Amundsen)
- Понимание принципов построения Data Lake и Data Mesh
- Опыт работы с векторными БД для ИИ-решений (Qdrant, Milvus, PGVector)
Будет преимуществом:
- Опыт построения корпоративных хранилищ данных с нуля
- Сертификации по работе с БД
- Опыт работы в строительной, горнодобывающей или инжиниринговой отрасли
- Знание специфики работы с геологическими, проектными и техническими данными
- Опыт внедрения Data Governance фреймворков (DAMA-DMBOK, DCAM)
- Вклад в open-source проекты в области data engineering
Условия:
-
Офис находится : г. Москва, наб. Пресненская, д.10 (Москва-Сити);
-
График работы: пятидневная рабочая неделя с понедельника по пятницу , выходные: суббота, воскресенье;
-
Период испытательного срока: 3 месяца;
-
ДМС;
-
Годовой бонус;
-
Профессиональное обучение и развитие;
-
Возможность реализовать свой потенциал и построить карьеру.
-
Конкурентоспособный уровень заработной платы.
-
Участие в интересных и масштабных проектах.