Центральный административный округ, район Хамовники, квартал Красная Роза
Ранжирование — это сердце Поиска, который ежедневно помогает сотням миллионов пользователей находить нужную информацию, и фундамент для Алисы — генеративного поиска будущего. Вам предстоит проектировать передовую ML-систему для одного из самых популярных сервисов в России.
Главный наш вызов — спроектировать ML-систему с учётом множества аспектов:
- Научиться разменивать качество на полезность: что важнее — идеально написанный текст, который не решает задачу, или неподтверждённый ответ, который помогает пользователю?
- Учитывать и помогать решать все задачи пользователей: по запросу «Ягуар» одни ищут автомобиль, другие — животное. Наши выдачи должны быть персонализированными и закрывать все потребности пользователей.
- Найти баланс между популярностью и экспертной оценкой качества, чтобы система не подменяла реальную ценность погоней за CTR.
- Отвечать за распределение трафика во всём рунете: наши решения влияют на сотни тысяч компаний, и нам важно помогать расти новым качественным игрокам, не разрушая уже известные хорошие бизнесы.
Какие задачи вас ждут
Научиться определять и показывать действительно качественный контент
Вместе с продакт-менеджерами и аналитиками вам предстоит разобраться, что сегодня значит «качественный сайт». Необходимо сделать модели, способные предсказывать экспертность, достоверность и степень зарекламленности контента. Научиться обучаться без байеса на популярность: даже люди-разметчики часто принимают красивый и популярный сайт за хороший по умолчанию. Помимо этого, нужно научиться отличать оригинальный контент от сгенерированного.
Спроектировать систему, чувствительную к изменениям внешнего мира
Эта система позволит понимать, когда информация устарела. Например, обновились пошлины на автомобили, и старые статьи теперь дезинформируют пользователей. Нужно будет научиться улавливать появление новых смыслов запросов: ещё вчера «Сплит» — это фильм, а сегодня —платёжная система. Предстоит разработать механизм регулярного дообучения и выстроить устойчивую систему контроля качества релизов.
Понять, как лучше всего визуализировать сайт на выдаче
Наша цель — сделать так, чтобы пользователь до клика понял, что документ решает его задачу. Необходимо научиться выделять нужный контекст с сайта — текст, изображение или другой фрагмент — и умещать его в несколько строк сниппета.
Создать механизм справедливого продвижения контента
Важно давать шанс новым сайтам, даже если пользователи привыкли к старым и узнаваемым. Для этого нужно исключить монополизацию выдачи, поддерживая честную конкуренцию и рост новых качественных игроков.
Мы ждем, что вы
- Получаете удовольствие от системного дизайна и хотите проектировать передовую ML-систему для одного из самых популярных сервисов в России
- Мечтаете драйвить сложные кросс-командные проекты и видеть, как ваши решения меняют продукт для 100+ миллионов пользователей
- Полны смелых идей в области ML и DL, которые согреют тысячи наших GPU