з/п не указана
Москва
Более 6 лет
Мы разрабатываем высоконагруженную платформу для инференса больших языковых моделей, которая используется в ряде внутренних и внешних продуктов компании: интеллектуальные ассистенты, чат-боты, сервисы генерации и анализа текста.
Обязанности
- Интеграция и адаптация LLM-моделей для инференса в высоконагруженной среде
- Участие в оптимизации узких мест: профилирование (Google Benchmark, perf), рефакторинг, применение низкоуровневых оптимизаций.
- Обеспечение отказоустойчивости и наблюдаемости сервисов (логирование, метрики, трассировка).
- Участие в код-ревью, обсуждении архитектурных решений, менторство менее опытных коллег.
- Взаимодействие со смежными командами (ML-инженеры, DevOps, аналитики) для согласования интерфейсов и форматов данных.
- Внедрение лучших практик разработки, тестирования и CI/CD
Требования
- Глубокое знание современного C++ (стандарты 14/17/20) и принципов низкоуровневой оптимизации.
- Опыт разработки highload и low-latency систем на C++ под Linux не менее 3–5 лет.
- Уверенное владение инструментарием: CMake, Git, GCC/Clang, отладчики (gdb), профилировщики (perf, Valgrind).
- Способность проектировать архитектуру модулей и сервисов, проводить код-ревью, участвовать в принятии технических решений.
Обязательные технические компетенции:
- Boost: опыт практического использования основных компонентов (asio, beast, filesystem, program_options, smart_ptr, lockfree).
- Protobuf: разработка .proto-спецификаций, сериализация/десериализация, интеграция с gRPC.
- ICU: работа с Unicode, нормализация текста, локализация, обработка строк в многобайтовых кодировках.
- pybind11: создание Python-биндингов для высокопроизводительного C++ кода, экспорт классов и функций, управление памятью между C++ и Python.
- cppzmq: построение асинхронной сообщающейся архитектуры с использованием ZeroMQ.
- benchmark (Google Benchmark): профилирование производительности, написание микро-бенчмарков, анализ и устранение узких мест.
- minja: работа с шаблонизатором minja (или аналогичными), генерация текстовых/конфигурационных файлов на основе шаблонов
- userver framework: разработка асинхронных микросервисов на userver, использование компонентов фреймворка
- gRPC: проектирование и реализация синхронных/асинхронных gRPC-сервисов, поддержка потоковой передачи, балансировка нагрузки
Опыт инференса LLM-моделей:
- Реализация и оптимизация инференса больших языковых моделей (LLM) на C++ в production-среде.
- Знакомство с архитектурами трансформеров (GPT, LLaMA, Falcon и т.п.) и методами их ускорения (квантизация, FlashAttention, PagedAttention, continuous batching).
- Практическое применение фреймворков инференса: TensorRT-LLM, sglang, llama.cpp, vLLM, ONNX Runtime или аналогичных.
- Умение интегрировать модели в высоконагруженные сервисы с учётом задержек, пропускной способности и потребления памяти.
- Понимание методов сжатия моделей (квантизация INT8/INT4, pruning, distillation).
Дополнительные плюсы:
- Опыт контейнеризации (Docker, Kubernetes) и оркестрации микросервисов.
- Участие в open-source проектах по профилю.
- Личностные качества:
- Способность разбираться в сложном легаси-коде и предлагать архитектурные улучшения.
- Самостоятельность в принятии технических решений.
- Ориентация на производительность и качество кода.
Условия
- Инновационные, амбициозные проекты и задачи, которые развивают: всегда есть возможность прокачать свои навыки в работе и профессионально расти;
- Среда для обмена знаниями – высокая экспертиза внутри команды;
- Сплоченная команда, работающая над общими задачами и умеющая хорошо отдыхать;
- Нашу культуру создают сами сотрудники – мы их слышим и помогаем создавать и поддерживать корпоративные комьюнити по интересам
- Стабильная заработная плата и годовой бонус;
- Гибридный формат работы. Современный IT-офис вблизи Москва-Сити в пяти минутах от метро "Кутузовская", с фитнес залом;
- Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития;
- Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа;
- Гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ;
- Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров;
- Вознаграждение за рекомендацию друзей в команду Сбера.