Москва
улица Клары Цеткин 4А
улица Клары Цеткин 4А
Чем предстоит заниматься:
- Оперативно и безопасно восстанавливать работу сервисов трайба в рабочее время;
- Разбирать инциденты уровня L2 без привлечения разработчиков там, где это возможно;
- Повышать надёжность через runbook’и, автоматику и проблем-менеджмент.
Что мы ждём:
- 2+ года в L2/SRE/Prod Support для микросервисов (Linux, сети, HTTP);
- Опыт работы с Kubernetes/Docker: kubectl/k9s, rollout/rollback, probes, ресурсы/лимиты;
- Опыт работы с Kafka/стриминг: consumer groups, partitions/keys, lag, DLQ, reprocess/replay; понимание идемпотентности;
- Базы данных: уверенный SQL (PostgreSQL/MySQL), транзакции/индексы;
- Большим плюсом будет опыт работы с Tarantool/Redis;
- Наблюдаемость: Prometheus/Grafana, Loki/ELK/Kibana, распределённый трейсинг (Jaeger/Tempo), APM/Sentry;
- Скриптинг: Bash/Python, утилиты jq/curl, Git; умение быстро собрать безопасный скрипт под runbook;
- ITIL-практики: Incident/Request/Problem/Change, написание RCA, работа по SLA/SLO;
- Коммуникации и дисциплина статусов, работа по чек-листам и эскалациям;
- Опыт в финтех/банке, near-real-time интеграциях;
- Базовое чтение кода (Java/Kotlin/Go/Node.js), понимание контрактов (OpenAPI/AsyncAPI);
- OpenTelemetry, настройка трейсинга на уровне сервисов;
- ArgoCD/Helm/GitLab CI, Vault/секреты, feature-флаги;
- Паттерны надёжности: retry/backoff/circuit-breaker, outbox/CDC, idempotency.