Москва
Наша команда разрабатывает GigaChat — мультимодальную нейросетевую модель, созданная командой разработчиков из Сбера. Модель умеет отвечать на вопросы пользователей и вести диалог, писать тексты разных форматов и создавать изображения по запросу, а также поддерживать беседу на разные темы.
Обязанности
- координировать процессы сбора и подготовки данных, определять источники и структуры данных для создания датасетов
- обобщать и обрабатывать размеченные данные, проверять и консолидировать данные, корректировать разметку в соответствии с требованиями проекта
- организовывать и контролировать работы разметчиков (специализированные эксперты и краудсорсинговые исполнители)
- оценивать точность и производительность работы разметчиков, внедрять метрики и проводить регулярные проверки для поддержания высокого стандарта разметки
- разрабатывать методические материалы – от инструкций до вебинаров для повышения квалификации
- осуществлять регулярный мониторинг работы разметчиков, создавать отчеты для руководства, планировать и оптимизировать ресурсы
- автоматизировать процессы с использованием Python и разрабатывать скрипты для упрощения процессов разметки, выгрузки и обработки данных.
Требования
- опыт разметки данных и управления командой (в т.ч. дистанционный)
- опыт работы в разметке данных от 2 лет
- опыт работы с технологиями: Python, Excel
- знание инструментов для обработки данных: pandas, numpy
- понимание принципов автоматизации рабочих процессов.
Будет плюсом:
- опыт работы с краудсорсинговыми платформами: Toloka или аналоги
- английского языка на уровне В1 или выше.
Условия
- оформление по договору ГПХ
- удаленный формат работы
- гибкий график
- возможность карьерного роста.