Дата инженер
Что по задачам?
•• Проектирование архитектуры загрузки данных: выбор стратегии репликации (CDC, batch), настройка инструментов трансфера
•• Развёртывание и конфигурация кластеров ClickHouse, PostreSQL, MariaDB, Mongo(партиционирование, оптимизация схем под запросы)
•• Разработка и поддержка ETL-процессов: обеспечение целостности, дедупликации, обработка ошибок;
•• Мониторинг производительности пайплайна, оптимизация запросов к базе данных, работа с планами выполнения
•• Автоматизация рутинных операций с помощью Python/Bash;
•• Взаимодействие с командой инфраструктуры по вопросам сетевой доступности и безопасности коммуникации с заказчиком и смежными командами;
•• Проектирование таблиц и витрин (raw → stage → mart);
•• Партиционирование, TTL, дедупликация;
•• Контроль качества данных, алерты и проверки, разбор инцидентов;
•• Поддержка production-витрин и базы данных;
•• Поиск узких мест в запросах, переписывание тяжелых SQL
•• Сложные join’ы по user identity, оптимизация стоимости хранения
•• Подготовка витрин для аналитики, сборка цепочек событий, Schema evolution
•• Идемпотентные пайплайны и ретраи и работа с массивами и nested структурами
•• Минимизация чтения данных и оптимизация нагрузки на кластер
Что по навыкам?
Наш стек: ClickHouse; S3-хранилище; Airflow; Python; JSON; Mongo. Maria DB, PostreSQL, Data Late
Опыт работы…—>
• ..разработки и поддержки end-to-end пайплайнов данных, получения данных из различных типов API;
• ..с потоковой обработкой данных и разработки ETL-процессов и с большими таблицами (десятки/сотни миллионов строк)
• Опыт работы от 3х лет;
• Мастер владения SQL (оконные функции, оптимизация запросов, анализ планов, процедуры), опыт работы с PostgreSQL, MariaDB;
• Умение работать с GIT;
• Уверенное знание работы потоков;
• Python для обработки данных;
• Понимание партиционирования и инкрементальных загрузок;
• Понимание идемпотентности, ретраев, backfill;
• Linux: уверенное владение командной строкой, работа с логами, systemd
Будет +++ —>>
Опыт
+ ..с облачными платформами (любой: Yandex Cloud, AWS, Azure) — развертывание управляемых баз данных, объектных хранилищ;
+ ..в проектах Яндекса или стартапах экосистемы Яндекса;
+ Знание Kafka, Debezium, Airflow;
+ Знание предметных областей: банки, кредитные риски;
+ Понимание основ информационной безопасности при передаче данных
Что мы предлагаем?
+ Конкурентоспособную заработную плату по итогам прохождения технического собеседования;
+ Полностью удаленная работа, можно работать из любой точки мира;
+ Рабочий график 5/2 с 9 до 18 по МСК, но само собой важно выполнять задачи по дедлайнам и быть на связи, ведь это удаленка;
+ Оформление по договору ГПХ или по ИП РФ;
+ Команда на драйве, фанаты своего дела и сильное окружение, с которым ты растешь только вперед! Свободное презентация и продвижение ваших идей 🔥 мы вас слышим