Разработчик в инфраструктуру Генезиса

Дата размещения вакансии: 15.11.2024
Работодатель: Яндекс
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

Мы занимаемся скоростью и надежностью больших обучений LLM на тысячи GPU. Мы стараемся выжать максимум из железа и оптимальным образом использовать сеть.

А еще большие обучения - сложный с точки зрения инфрастуктуры проект: GPU перегреваются, сеть ломается, хосты перезагружаются. Наша цель - сделать так, чтобы эти события минимально влияли на стабильность и прогресс обучения.

Задачи:

  • Оптимизация вычислений на GPU
  • Ускорение работы в прочих компонентах: Nirvana, YT
  • Развитие инструментов для быстрой диагностики инфра-проблем

Ожидания:

  • Уверенное владение языками программирования C/C++ и отличные навыки программирования.
  • Способность эффективно работать в команде и желание делиться опытом с коллегами.
  • Интерес к современным методам машинного обучения и большим языковым моделям (LLM).
  • Опыт работы с Nvidia GPU, CUDA

Будет плюсом:

  • Понимание принципов MLOps и опыт интеграции различных подсистем.