Москва
Обязанности:
- Подключаться к источникам бизнеса (ERP/CRM/биллинги/лог-шины/API), консолидировать разрозненные данные;
- Строить и поддерживать надёжные конвейеры (батч/стриминг) с оркестрацией, мониторингом и алертингом;
- Готовить «ML-готовые» датасеты и фичи: схемы, слои, форматы, версионирование;
- Обеспечивать хранение: проектировать DWH/даталейк/лейкхаус, индексацию, партиционирование, компрессию;
- Настраивать data quality/контракты данных (валидации, тесты, SLA);
- Интегрировать ML/LLM-пайплайны: оффлайн/онлайн фичи, фичастор, подготовка корпусов для RAG, векторные БД.
Необходимые навыки:
- Уверенный SQL (аналитический, оконные функции, оптимизация) и Python для пайплайнов/утилит;
- Опыт с Airflow (DAG, зависимости, сенсоры, SLA, retries);
- Проектирование слоёв данных и форматов, S3-совместимые стораджи;
- Практика data quality (тесты, профили, контракты);
- Понимание ML-пайплайнов на уровне подготовки признаков/датасетов для обучения и сервинга.
Мы предлагаем:
- Возможность участия в интересном проекте;
- Возможность профессионального и карьерного роста в компании;
- Опыт работы в команде профессионалов;
- Уровень заработной платы обсуждается индивидуально.
- Удаленный формат работы