Крылатская улица 15
Мы в поиске Data Scientist в команду, занимающуюся применением DL подходов в задачах Lamoda. Наша цель – с помощью глубокого обучения научиться понимать стиль, сходство, атрибуты одежды, а также предпочтения миллионов пользователей. Помимо этого мы активно развиваем применения LLM в различных задачах Lamoda от клиентских продуктов до поддержки и умного поиска по внутренним системам.
Чем предстоит заниматься:
- Улучшение моделей подбора образов (комплектов товаров, complete the look) на основе данных различных модальностей: визуальной сочетаемости по фотографии, атрибутам и текстовому описанию товаров. Генерация образов на основе текстового запроса пользователя.
- Построение новых кандидатных движков для подбора образов (в том числе с использованием LLM/VLM)
- Персонализация образов (в т.ч. моделями 2-го уровня) и адаптация моделей подбора образов под гардероб пользователя
- Построение моделей скоринга и оценка качества подбираемых образов
- Разработка retrieval алгоритмов в различных задачах: визуальный поиск, поиск релеватного документа, поиск подходящего товара/образа
Мы ожидаем:
- Опыт работы в ML / Deep Learning от 3 лет
- Владение Python и умение писать сложные SQL-запросы, опыт работы с Hadoop, Spark, Airflow, Docker
- Опыт применения Deep Learning в задачах Computer Vision, NLP с фокусом на metric learning;
- Опыт вывода ML-моделей в прод для решения бизнес-задач
- Знания математической статистики, теории вероятности, алгоритмов и структур данных
- Опыт работы с рекомендательными системами (как плюс)
Как мы работаем:
-
Пишем на Python 3.6+ и PySpark 3.0;
-
Для ресерча доступны два сервера (80 cores, 650Gb RAM), на которых развернут JupyrerHub и есть доступ к Hadoop-кластеру;
-
Код с логикой ML-пайплайнов упаковываем в Docker и выкатываем, используя CI/CD-инструменты с запуском code style проверок и тестов;
-
Используем Airflow для управления ML-пайплайнами и запуском их по расписанию;
-
В командах есть культура code review как для изменений по части продакшен-пайплайнов, так и для ресерч-задач;
-
Регулярно проводим командные брейнштормы с целью генерации новых идей по развитию наших data-driven продуктов;
-
В компании внедрена культура принятия решений на основании данных и все изменения тестируем через АБ-эксперименты.