Системный инженер HPC кластеров

Дата размещения вакансии: 29.08.2024
Работодатель: АВИТО ТЕХ
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

Команда инфраструктуры обеспечивает весь фундамент Авито - от серверов, до внутреннего облака. Сейчас мы строим новое для себя направление, которое будет отвечать за все HPC под задачи AI и больших языковых моделей (LLM). Команде предстоит с нуля построить инфраструктуру под эти цели на базе платформы HGX/DGX, развивать и поддерживать ее.

Вам предстоит:

  • Участвовать в разворачивании HPC кластера для задач ML/AI с нуля;

  • Заниматься сопровождением и развитием высокопроизводительных кластеров.

Мы ждём, что вы:

  • Понимаете архитектуру высокопроизводительных кластеров и принципы их построения;

  • Знаете, что такое Infiniband и как строятся сети для HPC/AI/ML-кластеров;

  • Имеете большой опыт работы с планировщиками распределенных вычислений (например Slurm);

  • Имеете опыт работы с распределенными файловыми системами;

  • Понимаете, как оптимизировать Linux для получения максимальной производительности ML кластера и IB сети;

  • Умеете писать скрипты для автоматизации собственных задач.

Работа у нас — это:

  • возможность реализовать свои идеи в проекте с многомиллионной аудиторией;
  • талантливая команда, готовая поддержать ваши инициативы;
  • мощное железо, дополнительные мониторы и всё, что нужно для продуктивной работы;
  • прозрачная система премий, достойная зарплата — размер обсудим на собеседовании;
  • личный бюджет на обучение, который можно тратить на книги, курсы и конференции;
  • забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист;
  • удалёнка и замечательный офис в двух минутах от метро «Белорусская»: панорамный вид на центр города, места для уединённой работы и зоны отдыха. Также у нас есть офисы в Санкт-Петербурге, Казани и Самаре.