Москва
SberDevices - новое направление компании, которое занимается созданием девайсов для массового пользователя и продуктов на основе речевых и голосовых технологий и многими другими интересными проектами.
Наша команда занимается развитием Data Platform (платформы данных).
Сейчас у нас есть три основных направления:
- Управление данными Умных устройств (телеметрия, пользовательские действия, системные логи и тп), собираем >1 млрд событий в сутки и обеспечиваем аналитику в реальном времени:
- Один из лидеров рынка по размеру собственной сети Умных устройств.
- Управление данными по взаимодействию пользователей с Виртуальным Ассистентом:
- Один из лидеров рынка по аудитории Виртуального Ассистента.
- Управление данными для обучения LLM (Больших языковых моделей), собираем и обрабатываем >5ПБ в месяц различных типов данных (текст, изображения, видео, звук):
- Один из лидеров LLM в стране.
Обязанности
- Развивать платформу как self-service для аналитиков – разрабатывать новые сервисы и фичи для удобства пользователей.
- Участвовать в проектировании и модернизации инфраструктуры.
- Поддерживать существующий функционал.
- Внедрять процедуры контроля качества данных.
- Оптимизировать и автоматизировать существующие процессы – никакого массового ручного клепания витрин и написания одинаковых ETL.
- Генерировать идеи, как сделать еще круче, чем уже есть :)
Требования
- Умение пороектировать и разрабатывать пайплайны обработки данных с использованием инструментов планирования задач - Airflow, Oozie, Luigi и т.п. (у нас Airflow)
- Опыт работы с МПП подобными системанами таким как Greenplum, GaussDB и колоночными БД ClickHouse, Vertics и т.д. (у нас GaussDB и ClickHouse)
- Опыт работы с S3 подобрыми системами (Amazon S3, Minio, Ceph)
- Опыт работы с очередями Kafka, RabbitMq
- Опыт применениения техноллогии моделирования данных с высоской степенью нормализации Data Vault и/или Anchor modeling (у нас Data Vault 2)
- Общие знания computer science на высоком уровне (алгоритмы, структруы данных, сложность по времени», и по памяти и т.д.)
- Навыки работы с unix-подобными системами, знание базовых GNU core tools(grep, cat, more, top, tail, less, ps, wc, xargs, sed, awk и т.п.).
- Опыт работы со стеком Hadoop (YARN, HDFS, HBase, Hive) будет плюсом
- Базовые навыки DevOps (Docker, Kubernetes, Ansible, Terraform)
- опыт работы с инструментов BI (SuperSet, Metabase, Tableau, Power BI) будет плюсом
Условия
- Гибкий стек инструментов и технологий – можно пробовать новое, если точно знаете, зачем.
- Адекватный подход к управлению – мы не ставим нереальных сроков и не предлагаем поработать в выходной ради высшего блага.
- Работа с крупнейшими массивами данных на рынке России.
- Гибкий график для оптимального баланса работы и личной жизни, возможна удалёнка.
- Дружный коллектив и здоровая атмосфера взаимопомощи.
- Амбициозные задачи.
- Профессиональное обучение, семинары, тренинги, конференции, корпоративная библиотека.
- ДМС, страхование жизни.
- Свободный дресс-код.
- Льготные кредиты и корпоративные скидки