Санкт-Петербург
набережная реки Фонтанки 68
набережная реки Фонтанки 68
О нашем продукте
1. Мы делаем Единое Хранилище данных по всем процессам Банка России. А это почти полный охват финансового рынка и всех связанных сущностей, требуемых для контроля и прогнозирования развития экономики в целом и участников в частности
- Основная задача – загрузить и получить на выходе максимально полные и достоверные данные по каждой сущности в удобном для дальнейшего использования виде.
2. Мы делаем приложения на базе Единого хранилища данных.
Обязанности:
- создание конвейера для обучения модели: определение процесса сбора данных, подготовки, обучения, оценки и развертывания модели машинного обучения;
- автоматизация процесса обучения: Реализация автоматизированных процессов для регулярного обучения и обновления моделей, используя CI/CD;
- оптимизация производительности: Использование различных техник для ускорения процесса обучения и развертывания модели, а также для улучшения ее производительности;
- выбор и настройка инфраструктуры: выбор и настройка подходящей инфраструктуры для обучения и развертывания моделей (например, облачные платформы, кластеры с GPU);
- управление ресурсами: Оптимизация использования ресурсов (например, процессорного времени, памяти и дискового пространства), чтобы уменьшить стоимость и повысить эффективность;
Требования:
- высшее техническое образование;
- релевантный опыт от 3-х лет;
- опыт работы с инструментами CI/CD: Jenkins, GitLab CI, CircleCI, и другие инструменты автоматизации и непрерывной интеграции;
- знание Docker и Kubernetes: создание, управление и оркестрация контейнеров.
- автоматизация инфраструктуры (IaC): Terraform, Ansible для создания и управления инфраструктурой через код;
- машинное обучение и DataOps: понимание процессов разработки, тестирования, развертывания и мониторинга моделей машинного обучения.
- языки программирования: Python, Bash, Go, или другие языки для автоматизации процессов и работы с пайплайнами данных;
- мониторинг и логирование: инструменты для мониторинга и логирования производительности систем, такие как Prometheus, Grafana, ELK Stack (Elasticsearch, Logstash, Kibana);
- управление версиями данных и моделей: инструменты вроде DVC (Data Version Control) или MLflow для отслеживания изменений данных и моделей;
- опыт работы с большими данными и потоками данных: Spark, Kafka, Hadoop;
- понимание основ безопасности данных и моделей, а также требований безопасности при развертывании систем;
Приветствуется:
- MLops Frameworks: навыки работы с такими фреймворками, как Kubeflow, MLflow, TFX;
- опыт работы с базами данных: SQL, NoSQL, базы данных для хранения и обработки данных.
- оптимизация производительности моделей: опыт работы с GPU и распределенными вычислениями для ускорения тренировки моделей.
Условия:
- гибридный график работы (до 50% - удаленный режим);
- компенсация релокации.