Стажер LLM/ML

Дата размещения вакансии: 18.09.2024

Работодатель: Альтирикс системс

Уровень зарплаты:

от 50000 RUR

Город:

Санкт-Петербург
проспект Медиков 3

Требуемый опыт работы:

не требуется

Отклики без сопроводительного письма не рассматриваются.
Укажите свой опыт (вкл. учебный) работы с текстовыми датасетами и задачами их подготовки для обучения моделей машинного обучения (ML) другую информацию в сопроводительном письме указывать не нужно. Стажировка в гибридном формате. С обязательным посещением офиса в Санкт-Петербурге.

Навыки программирования и автоматизации:

Умение писать и использовать скрипты для автоматизации сбора, обработки и очистки данных.
Опыт кодинга, Python (обязательно), а также знание библиотек для обработки данных, таких как pandas, NumPy, BeautifulSoup, Scrapy и др.
Опыт работы с API для сбора данных из различных источников.
Знание и опыт работы с системами управления версиями (Git) и основами DevOps.

Понимание принципов работы LLM:

Понимание основ и принципов работы крупных языковых моделей (LLM), включая архитектуры трансформеров (Transformer), предобучение моделей и процесс дообучения на специфических задачах.
Опыт работы с фреймворками и библиотеками для машинного обучения, такими как Hugging Face Transformers, TensorFlow или PyTorch.
Понимание основ вычислительной лингвистики и работы с естественным языком (NLP), а также умение адаптировать модели к конкретным задачам (дообучение, тонкая настройка).

Навыки работы с данными:

Умение собирать и классифицировать большие объемы текстовых данных из различных источников (социальные сети, форумы, блоги и др.).
Навыки предварительной обработки текстовых данных: нормализация, токенизация, удаление лишних символов и помех.
Способность анализировать данные и определять, подходят ли они для обучения LLM (оценка качества, репрезентативность, релевантность).
Аналитические способности и внимание к деталям:
Умение критически анализировать собранные данные и формулировать выводы на основе их анализа.
Высокое внимание к качеству данных, включая способность выявлять ошибки, аномалии и несоответствия в текстовых датасетах.

Преимуществом будет:

Опыт (вкл. учебный) работы с параллельными вычислениями и распределёнными системами для обработки больших объемов данных.
Опыт работы с инструментами контейнеризации (Docker) и оркестрации (Kubernetes).
Понимание базовых принципов этики при сборе и использовании данных, включая вопросы конфиденциальности и лицензирования.

Soft skills:

Способность работать в команде и сотрудничать с другими специалистами (разработчиками, лингвистами, исследователями).
Хорошие коммуникативные навыки для объяснения технических аспектов работы другим участникам проекта.
Способность к самостоятельному обучению и желанию развиваться в области разработки и обучения языковых моделей.

Условия стажировки

на время прохождения стажировки закрепляется куратор, всегда готовый помочь
обеспечивается всем необходимым для успешного прохождения стажировки
возможен гибридный формат работы (часть в офисе, часть удаленно)
готовы предоставить все необходимые документы для ВУЗа для зачёта практики, в т. ч. рекомендательное письмо
оплата по результатам стажировки

Откликнуться

Стажер LLM/ML

Похожие вакансии: Санкт-Петербург