Команда Цифрового профиля клиентов Корпоративно-инвестиционного блока ищет стажера Data Scientist по работе с данными.
Обязательно - студент, текущее обучение на очной форме в ВУЗе, техническая специальность.
Цель – создание ML-моделей, которые будут приносить пользу для бизнеса.
Приветствуется желание разобраться в MLE и участвовать в подготовке вывода моделей в прод.
Данных много и хранятся они в корпоративных хранилищах построенных на Hadoop, Teradata и всяких RDBMS. Наша команда является одним из лидеров экспертизы по знаниям, наши DE развивают огромную витрину ML-фичей.
Обрабатываем данные на собственном Hadoop кластере со Spark 3.4, python 3.8+. Так же имеется GPU-кластер c A100 для экспериментов.
Немного цифр для понимания масштабов и перспектив исследований:
- Более 80% корпоративного рынка РФ в нашем поле зрения. Из них более 2 млн компаний являются нашими клиентами и генерируют более 1 млрд транзакций ежедневно.
- Терабайты памяти и ~240 ядер cpu в песочницах для работы DS.
Обязанности
Примеры задач:
- разработка uplift-моделей
- разработка моделей Classic ML (Catboost, XGBoost, LightGBM ) / DL (DragonNet)
- разработка собственного фреймворка для автоматизации процессов.
Что будем делать на стажировке: аналитика данных, проверка гипотез, разработка моделей.
Требования
- знание языка программирования Python и библиотек анализа данных (Pandas или Polars)
- знания в области машинного обучения и анализа данных
- понимание метрик машинного обучения (классификации / регрессии)
- знание SQL и основ работы с данными
- желание работать с данными, искать закономерности, находить инсайты.
Будет плюсом, если есть:
- опыт работы с большими данными (PySpark)
- знание методов калибровки моделей.
Условия
- обязательно - также студент, обучение в ВУЗе, техническая специальность
- оплачиваемая стажировка
- длительность стажировки 4 месяца (30-40 часов в неделю)
- комфортный, современный офис: Москва, Кутузовский пр.32, к.1
- офисный формат стажировки, пн-пт с 9:00 до 18:00, гибкий график.