Москва
Обязанности:
- Установить и настроить Mistral-7B и LLaMA-13B (4-bit) через llama.cpp для MoE.
- Разработать и обучить гейт-модель (MLP) для распределения запросов между экспертами (LLaMA, Mistral, LLaMA-13B).
- Обучить LSTM для предвосхищения действий (например, "order_coffee" по контексту [08:00, 70, home]).
- Настроить LoRA для персонализации MoE, включая онлайн-обучение (5–10 мин/неделя).
- Создать модуль генерации диалогов, чтобы ИИ инициировал разговоры: Если вероятность >80%: "Кофе закажем?" Если <80%: "Кофе или такси?"
- Оптимизировать модели для Jetson Orin Nano (TensorFlow Lite, ~4–8 GB RAM).
- Протестировать сценарии (кофе, такси, пицца, погода, музыка, встреча, регистрация) с точностью предвосхищения 70–80%.
- Подготовить документацию для интеграции моделей с FastAPI.
Требования:
- Опыт работы с Python, TensorFlow/Keras, PyTorch, Hugging Face Transformers.
- Знание NLP и больших языковых моделей (LLM, например, LLaMA, Mistral).
- Навыки работы с LoRA, квантизацией (4-bit), и llama.cpp.
- Опыт с LSTM или RNN для анализа временных рядов.
- Понимание TensorFlow Lite и оптимизации для устройств с ограниченными ресурсами.
- Знание FastAPI для API-интеграции.
- Английский или русский (коммуникация через Slack/Telegram).
- Плюсом: Опыт с TensorRT, CUDA, или Jetson SDK
Условия:
- Формат: Удаленная работа
- Ресурсы: Мы предоставим доступ к Vast.ai (1x A100, $1/час, ~15 часов).
- Кто нужен: Один ML Engineer, готовый к интенсивной работе.
- Пришлите резюме и примеры проектов (GitHub, Kaggle, или описание). Укажите опыт с LLM, LoRA, и встраиваемыми системами.
- Ответьте: "Как бы вы оптимизировали LLaMA 7B для Jetson Orin Nano?"