Москва
Мы занимаемся скоростью и надежностью больших обучений LLM на тысячи GPU. Мы стараемся выжать максимум из железа и оптимальным образом использовать сеть.
А еще большие обучения - сложный с точки зрения инфрастуктуры проект: GPU перегреваются, сеть ломается, хосты перезагружаются. Наша цель - сделать так, чтобы эти события минимально влияли на стабильность и прогресс обучения.
Задачи:
- Оптимизация вычислений на GPU
- Ускорение работы в прочих компонентах: Nirvana, YT
- Развитие инструментов для быстрой диагностики инфра-проблем
Ожидания:
- Уверенное владение языками программирования C/C++ и отличные навыки программирования.
- Способность эффективно работать в команде и желание делиться опытом с коллегами.
- Интерес к современным методам машинного обучения и большим языковым моделям (LLM).
- Опыт работы с Nvidia GPU, CUDA
Будет плюсом:
- Понимание принципов MLOps и опыт интеграции различных подсистем.