Наша команда занимается развитием технологии LLM Поиска — Нейро.
В центре любого машинного обучения лежат датасеты. Мы занимаемся сбором эталонных ответов и сопутствующих данных. Отвечаем за скорость и качество их сбора. Удобство инструментов и инфраструктуры прямо влияет на скорость появления новой функциональности ключевой части Поиска.
Обязанности:
- Инфраструктура сбора сложных датасетов
Мы собираем датасеты с плохо формализуемыми и переменчивыми требованиями к качеству. Инфраструктура реализует достаточно сложную бизнес-логику, обеспечивая при этом необходимую гибкость, делая реальным сбор датасетов с необходимым качеством в заданные сроки. Вам предстоит создавать удобные инструменты в тесном контакте с аналитиками, чтобы вместе добиваться нужного результата. Обеспечение удобного выполнения заданий, хранение и визуализация-примеры типичных задач.
- Генеративные модели вокруг вас
Мы не только собираем данные для обучения генеративных моделей для Поиска, но и используем их как инструмент в своих процессах. Они помогают искать недостатки в датасетах, делают возможным прототипирование с помощью промтов. Мы используем их даже непосредственно в процессе создания данных для датасетов с помощью наших AI-тренеров.
- Разнообразные инструменты
У нас много различных задач, и для каждой мы выбираем самые подходящие из доступных инструментов: асинхронные бэкенды на Python, распределённые системы хранения и обработки данных (YTsaurus, YQL), конвейеры обработки данных (Nirvana), BI-инструменты (DataLens), Wiki, доски задач, внутреннюю платформу разметки данных и даже немного фронтенд-разработку.
Требования:
- Уверенные навыки программирования на Python
- Опыт работы с SQL
Будет плюсом:
- Имеете опыт фронтенд-разработки на React
- Работали с платформами больших данных (Hadoop, Spark, YTsaurus);
- Близко знакомы с Linux/Unix
- Не имеете «аллергии» на TypeScript и фронтенд-разработку в целом
Наличие даже одного из навыков в списке выше — нормально: мы не ожидаем, что вы знаете всё это. Ни одного — тоже не беда, если есть желание