Мы – инновационный проект в сфере искусственного интеллекта, создаём сервис генерации фотореалистичных изображений. Ищем талантливого ML-инженера, который умеет выжимать максимум из нейросетей: ускорять инференс, сокращать время обучения и адаптировать модели под реальные нагрузки.
Чем предстоит заниматься:
-
Оптимизировать вывод и обучение генеративных моделей (на базе Flux и Julia): использовать Flash-Attention, half/int8, слияние слоёв, ручную реструктуризацию архитектуры.
-
Экспортировать модели из Flux в ONNX, собирать движки в TensorRT, при необходимости писать кастомные плагины на C/CUDA.
-
Работать с ComfyUI: создавать кастомные узлы, автоматизировать пайплайны, внедрять кэширование и микробатчинг.
-
Профилировать узкие места (Nsight, trtexec), собирать метрики и снижать задержки.
-
Разворачивать решения на облачных GPU (Runpod, AWS), писать CI/CD пайплайны для сборки движков, автотестов и развёртки.
Наш идеальный кандидат:
-
3 + лет в Python (≥ 3.10) и Julia (≥ 1.10); пишете чистый, типизированный, async-код.
-
Уверенно работаете с flux.jl и diffusion-моделями.
-
Опыт CUDA/cuDNN и плагинов TensorRT 8/9.
-
Конверсия моделей в ONNX, onnx-simplifier, Polygraphy.
-
Профилировщики — nvprof, Nsight Systems/Compute, trtexec.
-
Писали кастомные узлы для ComfyUI.
-
Запускали высоконагруженный инференс на Runpod или AWS, умеете считать P95 latency и VRAM.
Будет плюсом:
-
Знание Triton для собственных ядер.
-
Опыт коммерческой работы с Stable-flux 1.x или аналогичными проектами.
-
Контрибуции в Flux.jl, ComfyUI или другие релевантные репозитории.
-
Опыт инфраструктурных инструментов (Terraform, Prometheus, Grafana — по желанию).
Что мы предлагаем:
-
Удаленный формат работы
-
Интересные задачи без рутины: реализация нестандартных идей, постоянное развитие сервиса.
-
Мощные GPU
-
Конкурентную заработную плату, которая пересматривается по результатам.
-
Команду, где уважают инициативу.
-
Возможность развивать продукт с высоким трафиком и реальным impact'ом.
Как откликнуться:
Пришли:
-
GitHub или ссылку на проект с кастомными ML-решениями (желательно — в области генерации изображений).
-
Пару строк об опыте с flux / TensorRT / кастомными оптимизациями.