Стажер LLM/ML

Дата размещения вакансии: 18.09.2024
Работодатель: Альтирикс системс
Уровень зарплаты:
от 50000 RUR
Город:
Санкт-Петербург
проспект Медиков 3
Требуемый опыт работы:
не требуется

Отклики без сопроводительного письма не рассматриваются.
Укажите свой опыт (вкл. учебный) работы с текстовыми датасетами и задачами их подготовки для обучения моделей машинного обучения (ML) другую информацию в сопроводительном письме указывать не нужно. Стажировка в гибридном формате. С обязательным посещением офиса в Санкт-Петербурге.

Навыки программирования и автоматизации:

  • Умение писать и использовать скрипты для автоматизации сбора, обработки и очистки данных.
  • Опыт кодинга, Python (обязательно), а также знание библиотек для обработки данных, таких как pandas, NumPy, BeautifulSoup, Scrapy и др.
  • Опыт работы с API для сбора данных из различных источников.
  • Знание и опыт работы с системами управления версиями (Git) и основами DevOps.

Понимание принципов работы LLM:

  • Понимание основ и принципов работы крупных языковых моделей (LLM), включая архитектуры трансформеров (Transformer), предобучение моделей и процесс дообучения на специфических задачах.
  • Опыт работы с фреймворками и библиотеками для машинного обучения, такими как Hugging Face Transformers, TensorFlow или PyTorch.
  • Понимание основ вычислительной лингвистики и работы с естественным языком (NLP), а также умение адаптировать модели к конкретным задачам (дообучение, тонкая настройка).

Навыки работы с данными:

  • Умение собирать и классифицировать большие объемы текстовых данных из различных источников (социальные сети, форумы, блоги и др.).
  • Навыки предварительной обработки текстовых данных: нормализация, токенизация, удаление лишних символов и помех.
  • Способность анализировать данные и определять, подходят ли они для обучения LLM (оценка качества, репрезентативность, релевантность).
  • Аналитические способности и внимание к деталям:
  • Умение критически анализировать собранные данные и формулировать выводы на основе их анализа.
  • Высокое внимание к качеству данных, включая способность выявлять ошибки, аномалии и несоответствия в текстовых датасетах.

Преимуществом будет:

  • Опыт (вкл. учебный) работы с параллельными вычислениями и распределёнными системами для обработки больших объемов данных.
  • Опыт работы с инструментами контейнеризации (Docker) и оркестрации (Kubernetes).
  • Понимание базовых принципов этики при сборе и использовании данных, включая вопросы конфиденциальности и лицензирования.

Soft skills:

  • Способность работать в команде и сотрудничать с другими специалистами (разработчиками, лингвистами, исследователями).
  • Хорошие коммуникативные навыки для объяснения технических аспектов работы другим участникам проекта.
  • Способность к самостоятельному обучению и желанию развиваться в области разработки и обучения языковых моделей.

Условия стажировки

  • на время прохождения стажировки закрепляется куратор, всегда готовый помочь
  • обеспечивается всем необходимым для успешного прохождения стажировки
  • возможен гибридный формат работы (часть в офисе, часть удаленно)
  • готовы предоставить все необходимые документы для ВУЗа для зачёта практики, в т. ч. рекомендательное письмо
  • оплата по результатам стажировки