Дербеневская набережная 7с9
Обязанности:
- Проектирование и разработка ETL/ELT-паплайнов для обработки структурированных и неструктурированных данных (тексты, изображения, видео);
- Организация и поддержка хранилища данных, включая обьективные, реляционные и распределенные системы;
- Внедрение и сопровождение Future Store для централизованного хранения и подачи признаков в модели;
- Автоматизация процессов резервного копирования и мониторинга ETL-процессов (Prometheus, Grafana);
- Обеспечение версионирования датасетов (DVC) и моделей (MLFlow) в рамках MLOps-практик;
- Разработка дашбордов для контроля качества данных и состояния паплайнов;
- Участие в построении CI/CD для дата-паплайнов и моделей машинного обучения;
- Изучение и интеграция перспективных технологий, включая векторные базы данных и инструменты распределенных вычислений.
Требования:
- Высшее образование (математика, копьютерные науки, физика, инженерия и смежные области);
- Опыт работы от 3 лет в аналогичной должности;
- Продвинутое владение языком Python: написание скриптов для обработки данных, работа с большим обьемом информации. Практический опыт построения паплайнов с использованием ETL/ELT подходов;
- Уверенное владение инструментальным стеком: PySpark - обработка распределнных данных, AirFlow - оркестрация рабочих процессов, ClickHouse - аналитические и распределенные СУБД; MLFlow - управление экспериментами и версионирование моделей; DVC - версионирование данных;
- Опыт работы с различными типами хранилищ: Обьектные хранилища (S3, Minio и аналоги), Реляционные БД, Распределенные системы хранения;
- Понимание архитектуры Feture Store и опыт его внедрения или интеграции;
- Навыки обработки изображений и видео с использованием OpenCV;
- Знание основ контейнеризации (Docker) и общее понимание принципов работы Kubernetes;
- Осведомленность о своевременных подходах к хранению векторных данных, готовность к изучению и внедрению в текущую инфратруктуру;
- Владения языками Rust или Go;
- Опыт участия в проектах машинного обучения;
- Опыт внедрения CI/CD для паплайнов обработки данных и ML-моделей.
Условия:
-
Оформление по ТК РФ, 100% белая заработная плата;
-
График работы 5/2 с 8:30-17:30, пятница – сокращенный день до 16:15 (возможность гибкого начала рабочего дня, гибридный формат работы, с возможностью посещения офиса);
-
Забота о здоровье сотрудников:
- Добровольное медицинское страхование (после 3 месяцев работы);
- Скидки по ДМС для родственников сотрудника;
- Скидки на стоматологию;
- Полис для выезжающих за границу.
-
Материальные бонусы:
- Годовая премия;
- Дополнительные выплаты к первому отпуску;
- Материальная помощь при рождении детей и к другим значимым событиям в жизни сотрудника;
- Материальная помощь в сложных жизненных ситуациях.
-
Забота о развитии:
- Внешнее обучение за счет работодателя;
- Внутреннее обучение: СДО, тренинги;
- Корпоративные мероприятия, подарки для детей;
- Возможность посещать психолога;
- Образовательные и развивающие мероприятия