Наш проект — GPU-платформа на ранней стадии, где мы строим собственную инфраструктуру для ML / AI-нагрузок с фокусом на безопасность, изоляцию клиентов и стабильную работу GPU-серверов.
Сейчас мы в поисках Senior Infrastructure / Systems Engineer (GPU & AI), который будет отвечать за разработку и поддержку ключевых инструментов GPU-инфраструктуры и агентов подключения.
Задачи:
- Создавать и развивать агентов подключения GPU (Windows / Linux): установка в одну команду, автоопределение GPU, сети и firewall
- Разворачивать и поддерживать LLM-модели на серверах (vLLM, TGI, TensorRT-LLM)
- Проектировать безопасное и изолированное выполнение задач арендаторов, мониторинг, телеметрию, алерты и механизмы самовосстановления
- Автоматизировать и оптимизировать инфраструктуру, упрощая UX для пользователей и снижая операционные издержки
Что нам важно:
- Опыт в системном программировании / MLOps / инфраструктуре от 3 лет
- Умение принимать архитектурные решения и работать в условиях быстрорастущего продукта
- Сильные навыки в Go / Rust / Python / Bash, работе с GPU (CUDA, nvidia-smi), контейнерами и оркестрацией
- Опыт создания CLI-инструментов или агентов «под ключ» с фокусом на простоту использования и понятные ошибки
- Понимание безопасности распределённых систем (TLS/mTLS, изоляция, аудит)
- Готовность брать ответственность за результат и инициативно предлагать решения, а не ждать ТЗ
Условия:
- Индивидуальный оффер
- Гибкий формат работы (удалённо или гибрид — по договорённости)