50000 RUR
от
Санкт-Петербург
проспект Медиков 3
проспект Медиков 3
Отклики без сопроводительного письма не рассматриваются.
Укажите свой опыт (вкл. учебный) работы с текстовыми датасетами и задачами их подготовки для обучения моделей машинного обучения (ML) другую информацию в сопроводительном письме указывать не нужно. Стажировка в гибридном формате. С обязательным посещением офиса в Санкт-Петербурге.
Навыки программирования и автоматизации:
- Умение писать и использовать скрипты для автоматизации сбора, обработки и очистки данных.
- Опыт кодинга, Python (обязательно), а также знание библиотек для обработки данных, таких как pandas, NumPy, BeautifulSoup, Scrapy и др.
- Опыт работы с API для сбора данных из различных источников.
- Знание и опыт работы с системами управления версиями (Git) и основами DevOps.
Понимание принципов работы LLM:
- Понимание основ и принципов работы крупных языковых моделей (LLM), включая архитектуры трансформеров (Transformer), предобучение моделей и процесс дообучения на специфических задачах.
- Опыт работы с фреймворками и библиотеками для машинного обучения, такими как Hugging Face Transformers, TensorFlow или PyTorch.
- Понимание основ вычислительной лингвистики и работы с естественным языком (NLP), а также умение адаптировать модели к конкретным задачам (дообучение, тонкая настройка).
Навыки работы с данными:
- Умение собирать и классифицировать большие объемы текстовых данных из различных источников (социальные сети, форумы, блоги и др.).
- Навыки предварительной обработки текстовых данных: нормализация, токенизация, удаление лишних символов и помех.
- Способность анализировать данные и определять, подходят ли они для обучения LLM (оценка качества, репрезентативность, релевантность).
- Аналитические способности и внимание к деталям:
- Умение критически анализировать собранные данные и формулировать выводы на основе их анализа.
- Высокое внимание к качеству данных, включая способность выявлять ошибки, аномалии и несоответствия в текстовых датасетах.
Преимуществом будет:
- Опыт (вкл. учебный) работы с параллельными вычислениями и распределёнными системами для обработки больших объемов данных.
- Опыт работы с инструментами контейнеризации (Docker) и оркестрации (Kubernetes).
- Понимание базовых принципов этики при сборе и использовании данных, включая вопросы конфиденциальности и лицензирования.
Soft skills:
- Способность работать в команде и сотрудничать с другими специалистами (разработчиками, лингвистами, исследователями).
- Хорошие коммуникативные навыки для объяснения технических аспектов работы другим участникам проекта.
- Способность к самостоятельному обучению и желанию развиваться в области разработки и обучения языковых моделей.
Условия стажировки
- на время прохождения стажировки закрепляется куратор, всегда готовый помочь
- обеспечивается всем необходимым для успешного прохождения стажировки
- возможен гибридный формат работы (часть в офисе, часть удаленно)
- готовы предоставить все необходимые документы для ВУЗа для зачёта практики, в т. ч. рекомендательное письмо
- оплата по результатам стажировки