набережная реки Фонтанки 68
Мы делаем Единое Хранилище данных по всем процессам Банка России. А это почти полный охват финансового рынка и всех связанных сущностей, требуемых для контроля и прогнозирования развития экономики в целом и участников в частности.
Основная задача – загрузить и получить на выходе максимально полные и достоверные данные по каждой сущности в удобном для дальнейшего использования виде.
Мы делаем приложения на базе Единого Хранилища Данных
Основной функционал: 'Монетизация данных- сбор данных из разных источников, в первую очередь из "озера данных" и Единого Хранилища данных- анализ и поиск закономерностей в разнообразных данных- построение моделей, основанных на данных- автоматизация работы приложения- подробное описание модели приложения.
Задачи:
• участие в подготовке данных для последующего моделирования (в т.ч. в управлении процессом разметки данных)
• поиск методов решения задач с использованием ИИ
• оценка сложности, рисков и трудозатрат для реализации задач ML
• проектирование и разработка моделей машинного обучения
• документировании в части описания моделей и результатов экспериментов
• участие в демонстрации разработанного ML решения
Требования:
•Высшее-техническое образование
• знания численных методов математической статистики и навыки ее использования для оценки точности моделей
• знание и опыт использования методов машинного обучения
• знания и практические навыки написания SQL запросов, опыт оптимизации запросов
• знание Python, Pandas, NumPy, PyTorch, TensorFlow, современных библиотек и Фреймворков
• навыки работы с LLM включая промпт инжиниринг, обучение LoRa адаптеров, квантования, использования одного или нескольких GPU
• навыки валидации работы моделей
• навыки преобразования сканов в тексты
• навык работы со средствами версионного контроля
• знание процесса непрерывного развертывания и опыт установки изменений в рамках конвейера CI/CD
• опыт работы с функциональными требованиями
Приветствуется опыт работы:
- построение RAG-систем
- работа с MLOps-конвейером
Наш стек:
• CI/CD: Ansible, Jenkins, Gitlab
• технологии распределенных вычислений: Apache Spark, Apache Hive, Cloudera Impala
• IDE: Apache Zeppelin, JupyterLab, IntelliJ IDEA, VSCode
• Языки программирования: Python
Условия:
- гибридный график работы (до 50% времени - удаленный режим работы);
- гибкое начало дня (08.00-11.00)