Краснопресненская набережная 12
Кто мы и зачем
Мы делаем платформу про здоровье Medatar и развиваем Личный кабинет премиального MediSpa-отеля Mayrveda.
Medatar - B2C-платформа здоровья: загрузка анализов и анкет, персональные рекомендации, AI-модули (OCR, RAG по PubMed/гайдлайнам, риск-калькуляторы, голосовые/числовые биомаркеры). Соответствие 152-ФЗ/323-ФЗ/GDPR/AI Act.
Наша культура
- Польза и надёжность выше хайпа. Продукт сегодня помогает людям и их семьям.
- Простота сначала: сначала работающие решения, а только потом сложные архитектуры.
- Прямота и ответственность: держим слово, доводим до результата.
Миссия вашей роли
Запустить и эволюционировать надёжное backend-ядро и шину интеграций, которые питают как классические фичи ЛК, так и AI-сервисы Medatar (RAG, векторный поиск, вероятностные модели). Вы ключевой инженер на стыке продового API, данных и ML-пайплайнов.
То, что мы делаем, сегодня облегчает жизнь людям и их семьям. Плюс возможность поучаствовать в построении современного AI-контура: RAG, векторные БД, вероятностные модели, мультиомиксные поиски, и всё это мы делаем не в слайдах, а в проде.
Задачи
- Спроектировать и реализовать микросервисы на FastAPI.
- Организовать слой данных под FHIR R4 (MVP-подмножество), схемы/миграции, SLA по консистентности.
- Запитать AI-модули бэкендом:
- RAG-контур: эмбеддинги (OpenAI/Instructor/SimCSE и др.), векторные БД (на выбор pgvector, FAISS, Pinecone/Weaviate), hybrid-search (BM25 + dense), rerank.
- Классификация/скоры: наивный Байес, логистическая регрессия/GBM, калибровка вероятностей (Platt/Isotonic), SHAP/feature importances.
- Мультиомиксные поиски: объединение лабораторных панелей/генетики/опросников → feature store → поиск паттернов и правил персонализации.
- Правила + вероятностные модели: PPL (PyMC/NumPyro) для агрегирования неоднозначных сигналов; guardrails/правила безопасности.
- Организовать ETL/ELT: ingestion PDF/изображений анализов, OCR, нормализация, дедупликация, валидации.
- Подготовить API-контракты для RN/Expo и веб-ЛК, стаб-сервисы/фикстуры для автономной разработки.
- Безопасность/комплаенс: шифрование PII/мед-данных, RBAC/ABAC, аудит, политики хранения/удаления, Data Loss Prevention.
- Обсервабилити: метрики/трейсинг/алерты (OTel, Prometheus, Grafana, Sentry), error budgets, p95/SLI/SLO.
- CI/CD: тесты (unit/integration/contract), миграции, превью-окружения, одно-кнопочный релиз.
Технологии (обсуждаемо)
- Python 3.11+, FastAPI, Pydantic v2, SQLAlchemy (async), httpx/asyncio.
- Хранилища: PostgreSQL, MongoDB, MinIO/S3, ClickHouse, Redis.
- Векторные БД: pgvector, FAISS (локально), опционально Pinecone/Weaviate.
- Поиск/ранжирование: BM25/HNSW, гибридная выдача, RAG (retriever → reranker → генератор).
- ML/данные: Pandas/Polars, scikit-learn, PyMC (байесовские модели), MLflow (регистр моделей), Feast (feature store) - поэтапно.
- Коммуникации: REST/gRPC, OpenAPI; очереди/шина (Kafka/NATS/RabbitMQ - по задаче).
- Контейнеры/инфра: Docker, docker-compose, GitHub/GitLab CI; IaC позже (Terraform/Ansible).
- Обсервабилити: OpenTelemetry, Prometheus, Grafana, Sentry.
Мы ждём от вас
- 3+ лет на Python с продовыми REST API (версионирование, пагинация, мокирование, feature toggling).
- Сильная PostgreSQL (транзакции, индексы, планировщик, профилирование), опыт хотя бы с одним NoSQL (например, MongoDB).
- Интеграции со сторонними системами (CRM/платежи/медсистемы): вебхуки, идемпотентность, ретраи.
- Тестирование и CI/CD в привычке: pytest, coverage, contract-тесты, линтеры.
- Базовая безопасность: секреты, токены, RBAC, аудит, шифрование данных на диске и на проводе.
- Готовность работать рядом с Data/AI (канонизация фич, контракт на данные, ресурсоёмкость).
Будет плюсом
- Практика векторного поиска, RAG, pgvector/FAISS/Weaviate, эмбеддингов.
- Опыт с scikit-learn, PyMC/NumPyro (наивный Байес/логрег/байесовские модели), MLflow.
- ClickHouse (события/метрики), S3/MinIO (артефакты), Redis (кеш/кворум-локи).
- FHIR/HL7, опыт интеграций с МИС/LIS/PACS, понимание регуляторики (152-ФЗ/323-ФЗ/GDPR).
- OpenTelemetry, Sentry, построение SLI/SLO/ошибочных бюджетов.
Условия
- Гибкий график, формат удалённый.
- Занятость full-time.
- Конкурентная компенсация.
- Быстрые решения, короткие циклы; влияние на архитектуру.