Саввинская набережная
Что делать
— On-call ротация в две смены под целевой SLO 99,95% в торговые часы оператора обмена ЦФА; — Владение деплой-пайплайнами на self-hosted GitLab, runbooks, эскалация инцидентов; — Эксплуатация observability-стека: VictoriaMetrics, Loki, Tempo, Grafana, Grafana OnCall (self-hosted); — Поддержка инфраструктуры на Kubernetes (Deckhouse) и Pangolin (Platform V); — Разбор инцидентов, постмортем-культура, контроль SLO/SLI; — Разработка и поддержка платформенных Python-сервисов: custom Prometheus exporters, internal CLI utilities, runbook-automation, audit-агрегаторы, инструменты для расследования инцидентов и регуляторной отчётности.
Команда
DevOps/SRE Lead уже на борту. Вы — первые два SRE в команду, on-call с разделением RBAC между Контуром ИС и Контуром EX.
Требования
— 3+ года production SRE / DevOps; — Kubernetes как рабочий инструмент (не «прохождение курса»); — Observability stack: Prometheus / VictoriaMetrics, Grafana, distributed tracing; — Python как обязательный язык платформенной автоматизации: 3+ года коммерческой Python в проде, опыт с asyncio и non-blocking I/O, FastAPI или эквивалент для internal services и custom exporters, понимание SQLAlchemy 2.0 async (управление сессиями, избегание N+1), Pydantic 2 (field_validator, model_validator, pydantic-settings), JWT/OAuth2 для авторизации tooling-сервисов, pytest + pytest-asyncio с моками и фикстурами, mypy strict (disallow_untyped_defs, no_implicit_optional) + ruff strict; — Go для tooling — будет плюсом, но не заменяет Python; — Опыт работы с инцидентами в ночную смену; — Готовность к on-call ротации.
Будет плюсом
— Опыт работы в регулируемом периметре (банк, финтех, КИИ-187-ФЗ); — Опыт с Deckhouse, T-Data Streaming, Platform V компонентами; — ISO/IEC 27001:2022 — понимание контролей и audit trail требований; — Опыт оптимизации Python-сервисов под высокий RPS с нестандартными настройками PostgreSQL (отключение durability в пользу скорости); — Знание asyncpg на низком уровне, написание Alembic-миграций в асинхронном режиме; — Опыт работы с time-machine, phonenumbers, cryptography, httpx для интеграций.
Ограничения по стеку
Без иностранных облаков (AWS / GCP / Azure / Yandex Cloud в основном продконтуре не используются — только сертифицированный российский контур). Без иностранных управляемых сервисов observability (Datadog, New Relic, PagerDuty исключены).
Стек
Cloud.ru / Selectel МСК, Kubernetes (Deckhouse), Pangolin (Platform V), Deckhouse Stronghold, VictoriaMetrics, Loki, Tempo, Grafana, Grafana OnCall, GitLab self-hosted, Terraform / OpenTofu, Python (FastAPI / asyncio / SQLAlchemy 2.0 async / Pydantic 2), Ansible, Bash.