Data scientist

Дата размещения вакансии: 05.12.2024
Работодатель: Центральный банк Российской Федерации (Банк России)
Уровень зарплаты:
з/п не указана
Город:
Санкт-Петербург
набережная реки Фонтанки 68
Требуемый опыт работы:
От 1 года до 3 лет

Мы делаем Единое Хранилище данных по всем процессам Банка России. А это почти полный охват финансового рынка и всех связанных сущностей, требуемых для контроля и прогнозирования развития экономики в целом и участников в частности.

Основная задача – загрузить и получить на выходе максимально полные и достоверные данные по каждой сущности в удобном для дальнейшего использования виде.

Мы делаем приложения на базе Единого Хранилища Данных

Основной функционал: 'Монетизация данных- сбор данных из разных источников, в первую очередь из "озера данных" и Единого Хранилища данных- анализ и поиск закономерностей в разнообразных данных- построение моделей, основанных на данных- автоматизация работы приложения- подробное описание модели приложения.​​​​​​​

Задачи:

• участие в подготовке данных для последующего моделирования (в т.ч. в управлении процессом разметки данных)

• поиск методов решения задач с использованием ИИ

• оценка сложности, рисков и трудозатрат для реализации задач ML

• проектирование и разработка моделей машинного обучения

• документировании в части описания моделей и результатов экспериментов

• участие в демонстрации разработанного ML решения

Требования:

​​​​​​​•Высшее-техническое образование

• знания численных методов математической статистики и навыки ее использования для оценки точности моделей

• знание и опыт использования методов машинного обучения

• знания и практические навыки написания SQL запросов, опыт оптимизации запросов

• знание Python, Pandas, NumPy, PyTorch, TensorFlow, современных библиотек и Фреймворков

• навыки работы с LLM включая промпт инжиниринг, обучение LoRa адаптеров, квантования, использования одного или нескольких GPU

• навыки валидации работы моделей

• навыки преобразования сканов в тексты

• навык работы со средствами версионного контроля

• знание процесса непрерывного развертывания и опыт установки изменений в рамках конвейера CI/CD

• опыт работы с функциональными требованиями

Приветствуется опыт работы:

  • построение RAG-систем
  • работа с MLOps-конвейером

Наш стек:

• CI/CD: Ansible, Jenkins, Gitlab

• технологии распределенных вычислений: Apache Spark, Apache Hive, Cloudera Impala

• IDE: Apache Zeppelin, JupyterLab, IntelliJ IDEA, VSCode

• Языки программирования: Python

Условия:

  • гибридный график работы (до 50% времени - удаленный режим работы);
  • гибкое начало дня (08.00-11.00)