DevOps Engineer (+LLMOps/GPU)

Дата размещения вакансии: 16.03.2026
Работодатель: Шарненкова Кристина Вячеславовна
Уровень зарплаты:
от 280000 до 450000 RUR
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

Привет! Мы — belkin.digital, консалтинг и разработка в области GenAI и AI-агентов. Наша команда разрабатывает AI-стратегии, строит агентов для автоматизации бизнес-процессов и обучает компании работать с ИИ. Сейчас мы в поиске DevOps Engineer (LLMOps/GPU). Тебе предстоит управлять инфраструктурой для LLM-проектов — GPU-кластерами и inference-серверами. А также обеспечивать надёжные, безопасные и экономичные операции для GenAI-приложений.

Работаем по методологии VibeEvolve: рутину берут на себя ИИ-агенты, а команда выступает архитекторами — проектирует процессы и управляет их работой. Это не будущее, которое мы планируем — это то, что строим прямо сейчас, и ищем тех, кто хочет быть частью этого.

Чем предстоит заниматься:

  • Проектировать и управлять GPU-инфраструктурой для LLM
  • Настраивать и поддерживать CI/CD пайплайны
  • Управлять контейнеризацией и оркестрацией (Docker, Kubernetes с GPU)
  • Деплоить и масштабировать LLM inference (vLLM, TGI, Triton)
  • Настраивать мониторинг, алертинг и логирование LLM-сервисов
  • Оптимизировать GPU-утилизацию и затраты
  • Обеспечивать security hardening и комплаенс

Мы ждем от тебя:

  • Опыт 3+ года DevOps/SRE
  • Знание российских облачных платформ (Yandex Cloud, VK Cloud, SberCloud) или on-premise (VMware, OpenStack, Proxmox)
  • Владение Infrastructure as Code (Terraform, Ansible)
  • Владение Docker и Kubernetes (с поддержкой GPU)
  • Знание CI/CD инструментов (GitLab CI, GitHub Actions)
  • Владение Prometheus, Grafana, ELK
  • Уверенное администрирование Linux
  • Опыт управления GPU-инфраструктурой (NVIDIA, CUDA, GPU scheduling)
  • Уверенную работа в Cursor / Claude Code с использованием AI-агентов

Будет плюсом:

  • Знание LLMOps-инструментов: vLLM, Text Generation Inference (TGI), Triton Inference Server
  • Опыт работы с model serving и autoscaling
  • Навыки оптимизации inference (batching, quantization)
  • Понимание FinOps для GPU-инфраструктуры