Senior Data Engineer (построение Lakehouse с нуля)

Дата размещения вакансии: 03.02.2025

Работодатель: Social Media Holding

Уровень зарплаты:

от 200000 RUR

Город:

Москва

Требуемый опыт работы:

От 3 до 6 лет

Уровень дохода обсудим индивидуально — для нас важно найти «своего» человека.

Наша сфера - интернет-траффик и всё, что с ним связано=) + Активно развиваемся в сторону нейросетей
В нашем арсенале более 10 внутренних b2b и b2c проектов собственной разработки.

Текущая задача: выстроить с нуля архитектуру ML отдела для нашего нового, но уже профитного, игрового продукта мирового масштаба, который динамично растет вместе с командой.

Мы формируем новую Data Engineering-команду с амбициозной задачей выстроить Lakehouse-инфраструктуру с нуля. В компании уже есть сильные специалисты и ресурсы во всех смежных направлениях, и теперь нам нужен Data Engineer, который возьмёт на себя ключевую роль в проектировании и развитии гибкой и высокопроизводительной платформы для обработки данных.

Наша цель — обеспечить бизнес и продуктовые команды самым современным стеком, который позволит эффективно обрабатывать потоковые и batch-данные, создавать витрины, запускать ML-модели и применять лучшие практики DataOps/MLOps.

Что предстоит делать

Разработать архитектуру Lakehouse:
- Определять подходящие инструменты (Iceberg/Delta/Hudi),
- Проектировать схемы хранения и структуры таблиц под ACID-транзакционность,
- Встраивать Data Governance и контроль качества.
Создавать и поддерживать пайплайны:
- Интегрировать данные из множества источников (SQL/NoSQL, API, события в Kafka, RabbitMQ),
- Использовать Spark (PySpark или Scala) для batch- и streaming-обработки,
- Оркестрировать пайплайны через Airflow.
Обеспечивать производительность и отказоустойчивость:
- Настраивать кластерную инфраструктуру (Docker/Kubernetes) и CI/CD (GitLab/Jenkins/Bitbucket Pipelines),
- Оптимизировать сложные запросы, Spark-джобы и логику распределённых вычислений.
Внедрять и развивать Data Quality:
- Использовать библиотеки (Great Expectations, dbt tests или аналогичные решения),
- Автоматизировать мониторинг качества данных и отслеживание метрик.
Работать в тесном контакте с другими командами:
- Аналитики, ML-инженеры, продуктовые команды будут рассчитывать на стабильные витрины и удобный доступ к данным,
- Участвовать в планировании и внедрении новых сервисов и функций, связанных с обработкой больших данных.
Стать одним из ключевых экспертов:
- Менторить менее опытных коллег,
- Участвовать в найме и развитии Data Engineering-отдела,
- Вносить вклад в формирование культуры и стандартов разработки
  Наш ожидаемый стек
- Хранилище: S3-совместимый стор (или распределённое HDFS) + слой Lakehouse (Iceberg/Delta/Hudi).
- Аналитика и обработка: Spark (PySpark или Scala), SQL (PostgreSQL, ClickHouse), Kafka, Airflow.
- Инфраструктура: Docker, Kubernetes, Git, CI/CD (Jenkins/GitLab/Bitbucket), мониторинг и логирование (Prometheus, Grafana, ELK).
- Data Quality: Great Expectations/dbt или подобные инструменты.
- (Мы открыты к выбору других решений, если вы сможете аргументированно показать их преимущества.)
  
  Наши требования к кандидатам
- Опыт от 3–4 лет в Data Engineering или разработке высоконагруженных систем.
- Уверенные знания:
  - Основы распределённых вычислений, Spark (batch/stream),
  - SQL (включая оконные функции, оптимизацию запросов),
  - Kafka или другой брокер сообщений,
  - Docker/K8s, CI/CD-подходы.
- Понимание Lakehouse-парадигмы или опыт работы с Data Lake + транзакционными слоями (Iceberg, Delta, Hudi) — большой плюс.
- Владение Python (pandas, PySpark) и/или Scala (Spark), умение писать поддерживаемый и производительный код.
- Ориентация на результат и качество: вы знаете, как проектировать надёжные пайплайны, следите за метриками и оформляете документацию.
- Коммуникабельность: нужно будет плотно работать с другими командами и презентовать результаты руководству.
- Английский язык не ниже Intermediate (для чтения документации и возможных внешних метапов).
  Что мы предлагаем
- Уровень дохода: обсуждается индивидуально (высокий, конкурентоспособный).
- Все необходимые ресурсы: у нас нет бюрократических ограничений — вы сможете экспериментировать и воплощать лучшие идеи.
- Влияние на продукт: вы будете одним из первых инженеров, стоящих у истоков Data-платформы в компании.
- Сильная мультидисциплинарная команда: рядом эксперты из разработки, аналитики, ML — у нас насыщенный обмен опытом.
- Карьерное развитие: при желании вы можете быстро вырасти до лидирующей роли (Team Lead / Head of Data Engineering) и вести стратегические инициативы.
- Комфортные условия: гибкий рабочий график, возможность работать в офисе или удалённо, корпоративные активности, обучение и профессиональный рост.

Откликнуться

Senior Data Engineer (построение Lakehouse с нуля)

Похожие вакансии: Москва