з/п не указана
Москва
От 3 до 6 лет
Мы ищем опытного SRE-инженера для поддержки и развития распределённой облачной инфраструктуры на базе OpenStack-подобной экосистемы в собственном Linux-дистрибутиве (RPM-based).
Вам предстоит отвечать за эксплуатационную надёжность платформы, автоматизацию, наблюдаемость, процессы релизов и расследование инцидентов в production-среде.
Обязанности
- эксплуатация и развитие production-инфраструктуры облачной платформы (control plane + compute/network/storage)
- проектирование и сопровождение SLO/SLI, участие в управлении инцидентами (incident response), postmortem (RCA)
- автоматизация операционных задач (деплой, обновления, миграции, аудит конфигураций)
- разработка и сопровождение инфраструктурных инструментов (скрипты, сервисы, операторы, утилиты)
- диагностика сложных проблем в Linux/сетях/хранилищах/виртуализации, снижение MTTR
- поддержка observability: метрики, логи, трассировки, алерты, дешборды.
- работа с CI/CD и процессами релизов: тестирование, канареечные выкладки, rollback, контроль версий.
Требования
- отличное знание Linux (на уровне эксплуатации и диагностики): systemd, journalctl, cgroups, namespaces, сетевой стек (iptables/nftables, routing, MTU, TCP/UDP), файловые системы
- контейнеризация: Docker и/или Podman, работа с registry, networking, volumes.
- виртуализация: QEMU/KVM, понимание взаимодействия через libvirt (CLI/API), сетевые bridge/overlay.
- опыт работы с CI/CD (Git, GitLab CI или аналоги), автоматизация релизов.
- опыт работы с конфигурационным управлением (Ansible или аналог).
- базовый опыт работы с системами сборки и публикации пакетов RPM (rpmbuild/mock/koji или аналоги).
- опыт использования GigaChat, Kandinsky и аналогов в продуктах, навыки создания и использования AI-агентов.
Будет плюсом
- практический опыт эксплуатации OpenStack (или его компонентов/аналогов)
- опыт работы с Ceph (или другими распределёнными хранилищами).
- навыки работы с Prometheus/Grafana/Alertmanager (или аналогичным стеком)
- опыт построения централизованных логов (Loki/ELK/OpenSearch).
- понимание сервисных архитектур: REST/RPC, message-bus подход (RabbitMQ/Kafka)
- опыт hardening, базовый security mindset (TLS, секреты, политики доступа)
- опыт поддержки собственного Linux-дистрибутива и внутренних репозиториев.
Условия
- работа с крупной модульной облачной инфраструктурой и реальными production-задачами
- возможность влиять на архитектуру эксплуатации, релизный процесс и надёжность платформы
- технически сложные задачи на стыке Linux, виртуализации, сетей и распределённых систем.
- годовой бонус и ежегодный пересмотр зарплаты
- статус аккредитованной ИТ-компании со всеми преимуществами
- расширенный ДМС с первого дня и льготное страхование для семьи
- корпоративный университет Сбера, внутренняя образовательная платформа, участие в IT-конференциях
- льготная ипотека в Сбере, подписка СберПрайм+, скидки от партнеров и сервисов группы компаний.