ML-инженер

Дата размещения вакансии: 20.02.2026
Работодатель: Staffberry
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

Мы создаём передовой блокчейн для распределенных вычислений в сфере ИИ. Мы ищем инженера, специализирующегося на инфраструктуре и производительности вывода машинного обучения. Ваша задача — сделать крупномасштабный вывод ИИ быстрым, экономически эффективным и безопасным в среде гетерогенных GPU-узлов, включая конфиденциальные и минимизированные по уровню доверия среды.

Обязанности:

  • Архитектура и разработка децентрализованных ИИ-систем корпоративного уровня (pro-code);
  • Создание и масштабирование ИИ-инфраструктуры на базе Kubernetes с использованием Docker, K8s, Terraform/Pulumi и распределенных фреймворков (KubeRay, SkyPilot);
  • Оптимизация вывода LLM / Transformer (задержки, пропускная способность, память);
  • Работа с vLLM, SGLang, пакетной обработкой, KV-кэшем, потоковым выводом;
  • Развертывание и настройка Triton Inference Server, TensorRT, ONNX Runtime;
  • Применение квантования (INT8 / FP16 / FP8) и анализ компромиссов между точностью и скоростью;
  • Профилирование и оптимизация использования CUDA/GPU;
  • Выбор и тестирование GPU для распределенных рабочих нагрузок;
  • Построение защищенных конвейеров вывода с использованием TEE (Intel SGX, NVIDIA Confidential Computing, аттестация):
  • Интеграция вывода ИИ с планированием на основе блокчейна и уровнями доверия.

Требования:

  • AI / Inference: PyTorch, ONNX; vLLM, SGLang; Triton Inference Server, TensorRT; CUDA, NVIDIA NGC;

  • Знания в области систем машинного обучения: Архитектура Transformer, механизм внимания; KV-кэш, токенизация, эмбеддинги; Линейная алгебра для повышения производительности машинного обучения;

  • Языки программирования: Python, Rust.

Будет плюсом:

— Понимание основ блокчейна;

— Опыт работы с распределенными системами / P2P-сетями;

— Масштабируемые системы машинного обучения в производственной среде;

— Сильный технический английский.