з/п не указана
Москва
Более 6 лет
Обязанности:
- Анализ задач заказчика (LLM, CV, recommender, classical ML и др.) и требований к качеству/скорости
- Проектирование целевой архитектуры ML‑решения с учетом ограничений инфраструктуры и продуктов
- Взаимодействие с ML‑командами заказчика
- Анализ задач заказчика (LLM, CV, recommender, classical ML и др.) и требований к качеству/скорости
- Выбор и обоснование стека: фреймворки (PyTorch, TensorFlow и др.), библиотеки, runtime, форматы моделей, схемы шардирования/параллелизма
- Определение требований к ресурсам (число GPU, тип/объем памяти, сеть, хранилище)
- Решение проблем на стыке GPU Граус и прикладных бизнес‑задач
- Разработка рекомендаций по конфигурации моделей (batch size, quantization, pipeline‑параллелизм и др.) для достижения SLA по задержке и пропускной
- Участие в настройке мониторинга метрик ML‑сервисов: latency, throughput, quality, drift, resource utilization
- Подготовка эксплуатационных best practices и шаблонов архитектур для типовых сценариев
Требования:
- Опыт проектирования Архитектуры ML‑решения
- Понимание GPU‑архитектуры, ограничений памяти, пропускной способности и влияния архитектуры модели на загрузку ресурсов
- Знание современных ML/Deep Learning‑подходов (LLM, CV, NLP, recommender и др.)
- Знание фреймворков: PyTorch, TensorFlow и др.
- Архитектура inference‑сервисов (on‑prem, Kubernetes, микросервисы, сервинговые фреймворки)
- Знание основ оптимизации моделей (quantization, pruning, distillation, tensor/ pipeline/ data parallelism)
- Опыт работы с Python, Jupyter/VS Code, ML‑фреймворки (PyTorch, TensorFlow и др.), системы оркестрации (Kubernetes), CI/CD, системы мониторинга и логирования, инструменты профилирования и оптимизации моделей