AI/ML Engineer (Python)

Дата размещения вакансии: 30.12.2025
Работодатель: Технократия
Уровень зарплаты:
з/п не указана
Город:
Казань
Кремлёвская улица 21
Требуемый опыт работы:
От 3 до 6 лет

Технократия цифровизирует бизнес: от небольших компаний до крупных корпораций. СИБУР Диджитал, Камаз Digital, Татнефть, Университет Иннополис — наши клиенты. А ещё внутренние продукты, которые мы выводим на рынок.

Ищем в нашу команду AI/ML Инженера на проект зарубежного финтеха.

Стек технологий:

  • Python 3.12+, asyncio

  • FastAPI, Uvicorn

  • Pydantic v2

  • LiteLLM

  • vLLM, TGI, Ollama

  • LangChain, LlamaIndex

  • Qdrant, Chroma, Pinecone

  • Sentence-Transformers, OpenAI Embeddings

  • Unstructured

  • Chonkie, LangChain Text Splitters

  • FlashRank, Cohere

  • Presidio

  • NeMo Guardrails

  • Detoxify

  • OpenLLMetry

  • LangFuse / LangSmith

  • Prometheus

  • Docker, Kubernetes

  • CUDA, GPU (A10, A100)

  • MinIO

Чем предстоит заниматься:

  • Разрабатывать LLM routing и gateway слой

  • Реализовывать и оптимизировать RAG-пайплайны

  • Встраивать guardrails и AI safety механизмы

  • Интегрировать LLM observability и трейсинг

  • Оптимизировать inference по latency, throughput и стоимости

  • Реализовывать evaluation-пайплайны качества ответов

  • Работать с GPU-инфраструктурой и масштабированием

Что мы ожидаем:

  • Опыт AI Engineering или MLOps от 3 лет

  • Продуктовый опыт работы с LLM

  • Глубокое понимание RAG-архитектур

  • Уверенная работа с Python и async-стеком

  • Понимание рисков и безопасности LLM-систем

Будет плюсом:

  • Agentic RAG и multi-agent системы

  • Fine-tuning моделей (LoRA, QLoRA)

  • Multi-modal модели (vision, audio)

  • ASR, TTS, OCR, NER

  • Опыт evaluation-фреймворков (RAGAS, deepeval)

  • Оптимизация inference (batching, KV-cache, quantization)