Senior Data Engineer (SberDevices)

Дата размещения вакансии: 13.01.2025
Работодатель: СБЕР
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

SberDevices - новое направление компании, которое занимается созданием девайсов для массового пользователя и продуктов на основе речевых и голосовых технологий и многими другими интересными проектами.

Наша команда занимается развитием Data Platform (платформы данных).

Сейчас у нас есть три основных направления:

  1. Управление данными Умных устройств (телеметрия, пользовательские действия, системные логи и тп), собираем >1 млрд событий в сутки и обеспечиваем аналитику в реальном времени:
  2. Один из лидеров рынка по размеру собственной сети Умных устройств.
  3. Управление данными по взаимодействию пользователей с Виртуальным Ассистентом:
  4. Один из лидеров рынка по аудитории Виртуального Ассистента.
  5. Управление данными для обучения LLM (Больших языковых моделей), собираем и обрабатываем >5ПБ в месяц различных типов данных (текст, изображения, видео, звук):
  6. Один из лидеров LLM в стране.

Обязанности

  • Развивать платформу как self-service для аналитиков – разрабатывать новые сервисы и фичи для удобства пользователей.
  • Участвовать в проектировании и модернизации инфраструктуры.
  • Поддерживать существующий функционал.
  • Внедрять процедуры контроля качества данных.
  • Оптимизировать и автоматизировать существующие процессы – никакого массового ручного клепания витрин и написания одинаковых ETL.
  • Генерировать идеи, как сделать еще круче, чем уже есть :)

Требования

  • Умение пороектировать и разрабатывать пайплайны обработки данных с использованием инструментов планирования задач - Airflow, Oozie, Luigi и т.п. (у нас Airflow)
  • Опыт работы с МПП подобными системанами таким как Greenplum, GaussDB и колоночными БД ClickHouse, Vertics и т.д. (у нас GaussDB и ClickHouse)
  • Опыт работы с S3 подобрыми системами (Amazon S3, Minio, Ceph)
  • Опыт работы с очередями Kafka, RabbitMq
  • Опыт применениения техноллогии моделирования данных с высоской степенью нормализации Data Vault и/или Anchor modeling (у нас Data Vault 2)
  • Общие знания computer science на высоком уровне (алгоритмы, структруы данных, сложность по времени», и по памяти и т.д.)
  • Навыки работы с unix-подобными системами, знание базовых GNU core tools(grep, cat, more, top, tail, less, ps, wc, xargs, sed, awk и т.п.).
  • Опыт работы со стеком Hadoop (YARN, HDFS, HBase, Hive) будет плюсом
  • Базовые навыки DevOps (Docker, Kubernetes, Ansible, Terraform)
  • опыт работы с инструментов BI (SuperSet, Metabase, Tableau, Power BI) будет плюсом

Условия

  • Гибкий стек инструментов и технологий – можно пробовать новое, если точно знаете, зачем.
  • Адекватный подход к управлению – мы не ставим нереальных сроков и не предлагаем поработать в выходной ради высшего блага.
  • Работа с крупнейшими массивами данных на рынке России.
  • Гибкий график для оптимального баланса работы и личной жизни, возможна удалёнка.
  • Дружный коллектив и здоровая атмосфера взаимопомощи.
  • Амбициозные задачи.
  • Профессиональное обучение, семинары, тренинги, конференции, корпоративная библиотека.
  • ДМС, страхование жизни.
  • Свободный дресс-код.
  • Льготные кредиты и корпоративные скидки