Замоскворецкая линия метро Динамо
RDP - ведущий российский производитель сетевых решений.
Мы специализируемся на разработке инновационного программного обеспечения и программно-аппаратных комплексов для высокопроизводительной обработки сетевого трафика. Продукция компании широко востребована в сетях операторского класса, крупных предприятиях и Госсекторе.
Одна из ключевых особенностей нашей компании – поставка масштабируемых решений на базе нашего оборудования, интеграция с системами Заказчика и доработка продуктов под поставляемые решения.
Сейчас мы находимся в поиске Инженера данных в команду, которая занимается разработкой платформы обработки больших данных, а именно сетевого трафика.
Этот продукт будет использоваться для предотвращения сетевых атак, поиска аномалий в трафике и др.
Обязанности:
- Проектирование и реализация сложных batch и streaming пайплайнов в новом Lakehouse-стеке
- Реализация и контроль технической части миграции Hadoop → S3/Iceberg
- Проектирование схем хранения и оптимизация Iceberg-таблиц
- Оптимизация Spark и Trino под highload и near-real-time требования
- Разбор и устранение сложных инцидентов производительности
- Внедрение и развитие практик Data Quality
- Проведение код-ревью
- Менторинг Senior и Middle инженеров
- Поддержка legacy-стека в части нестандартных или критичных кейсов
Требования:
- 5+ лет опыта в Data Engineering
- Продвинутый опыт работы со Spark (batch и streaming)
- Практический опыт построения streaming-обработки (Spark Streaming или Flink)
- Отличное знание SQL и опыт оптимизации под большие объёмы данных
- Опыт работы с Kafka
- Уверенное владение Python (включая PySpark)
- Разработка, оптимизация и масштабирование ETL/ELT-процессов, включая автоматизацию сбора, трансформации и загрузки данных из разнородных источников;
- Участие в проектировании и развитии архитектуры хранилищ данных (DWH) и озёр данных (Data Lake);
- Разработка и поддержка витрин данных для аналитики и бизнес-отчетности;
- Оптимизация производительности и надежности процессов обработки данных (SQL, Spark, Airflow);
- Обеспечение качества данных через внедрение автоматизированных проверок, систем мониторинга и механизмов оповещения;
- Взаимодействие с аналитиками, специалистами Data Science и бизнес-заказчиками;
- Ведение и актуализация технической документации (архитектура, процессы, API, SLA).
- Опыт работы с distributed storage (HDFS, S3 или аналоги)
- Понимание принципов Data Lake / Lakehouse
- Опыт проектирования таблиц под большие объёмы данных (partitioning, compaction, storage layout)
- Опыт работы с Iceberg / Delta Lake или понимание их принципов
Будет плюсом:
- Опыт работы с Trino / Presto
- Опыт работы с ClickHouse
- Опыт работы с Kubernetes
- Понимание практик Infrastructure as Code
- Опыт работы с GitOps (Argo CD)
- Понимание различных моделей данных (Star/Snow?ake, Data Vault, Anchor Modeling)
- Понимание принципов построения IP-сетей и базовых сетевых протоколов (IP, TCP/ UDP, маршрутизация, модель OSI)
- Понимание принципов MLOps
Условия:
- Работа в аккредитованной IT компании;
- Трудоустройство в соответствии с ТК РФ;
- Белая заработная плата (оклад обсуждаем с успешным кандидатом после прохождения технического интервью);
- График работы: 5/2, гибкое начало рабочего дня (с 8:00 до 12:00);
- Возможность работать удаленно в рамках РФ;
- ДМС (со стоматологией), частичная компенсация обедов (для тех кто ходит в офис), внутреннее и внешнее обучение за счет компании, корпоративный фитнес и изучение английского языка;
- Офис находится в БЦ "Трио" на метро Динамо (или мцд Гражданская).