Senior SRE/Site Reliability Engineer

Дата размещения вакансии: 12.12.2025

Работодатель: Bazon

Уровень зарплаты:

от 350000 RUR

Город:

Новосибирск
улица Добролюбова 2А

Требуемый опыт работы:

От 3 до 6 лет

Bazon — специализированная учетная система для продавцов б/у автозапчастей. Сейчас мы обслуживаем сотни компаний от Калининграда до Владивостока, и являемся лидером в своей сфере.

Мы в поисках инженера, который возьмёт на себя архитектуру надёжности и приведёт всю платформу к предсказуемой отказоустойчивости, наблюдаемости и минимальному MTTR.

У нас уже есть зрелая инфраструктура и работающий стек мониторинга — задача не строить всё с нуля, а провести аудит, стандартизировать практики и повысить предсказуемость поведения системы.

Это шанс построить архитектуру, которая не просто выглядит устойчивой на схемах, а реально выдерживает сбои и держит продукт в строю.

Какие задачи предстоит решать:

Архитектура отказоустойчивости

Проектирование целевой инфраструктурной архитектуры с SLA уровня банковских стандартов.
Выстраивание отказоустойчивого входного контура и схем маршрутизации внешнего трафика
Выявление и устранение существующих SPOF, проектирование резервирования всех критичных компонентов.
Стандартизация сетевых политик, маршрутизации, схем deployment/failover. Настройка сетевой изоляции и схем доступа.

Observability и диагностика

Проведение аудита текущего Prometheus/Grafana/Tracing/Sentry-стека.
Упорядочивание метрик, алертов и дашбордов — удаление лишнего, добавление недостающих, стандартизация подходов.
Сокращение времени диагностики инцидентов.

Инцидент-менеджмент

Участие и лидирование postmortem’ов, построение RCA-процессов.
Обучение L2 и DevOps методам диагностики и работы с observability.

Security

Аудит инфраструктуры, поиск misconfiguration’ов и уязвимостей.
Рекомендации по hardening (сетевые политики, доступы, Kubernetes).
Выявление слабых мест в архитектуре и предложение решений по их устранению.

Наши ожидания от кандидата:

Глубокое понимание Kubernetes на уровне архитектуры (network, storage, failover).
Уверенная работа с архитектурами отказоустойчивости (multi-region, active-passive).
Сильная сетевая компетенция:
- маршрутизация, балансировка, сетевые протоколы;
- опыт работы с BGP (или смежными технологиями);
- понимание L4/L7, ingress-контроллеров, схем распределения трафика.
Опыт построения единой Observability-системы: Prometheus, Grafana
Опыт выявления узких мест архитектуры и построения масштабируемых решений.
Опыт аудита безопасности, выявления misconfiguration’ов, будет преимуществом.

Что мы ожидаем от этой роли:

Предсказуемое поведение платформы под нагрузкой — снижение количества инцидентов, вызванных архитектурными и сетевыми особенностями.
Сокращение MTTR за счёт стандартизации диагностики, прозрачной наблюдаемости и улучшения процессов реагирования.
Прозрачная Observability-модель, в которой у сервисов есть корректные метрики, алерты и дашборды, а шум и дубли устранены.
Повышение качества постмортемов и архитектурной обратной связи — от фиксации фактов до предписаний изменений.
Устранение ключевых SPOF и построение схем резервирования для критичных компонентов инфраструктуры.
Стабильный входной трафик-слой, корректно переживающий сбои отдельных узлов и нарушений маршрутизации.

Что мы предлагаем:

У нас амбициозные и интересные задачи, возможность внести свои инициативы и увидеть результат своей работы.
А так же, адекватное руководство, компетентный коллектив, низкий уровень бюрократии.
Гибкий график, ДМС, официальное трудоустройство в аккредитованную IT-компанию.
Достойная "белая" заработная плата, растущая вслед за вашим профессионализмом.
Современный офис с прекрасным видом на реку, релакс-зоной, оборудованной кофейней и плюшками (в 5 минутах от м. Речной вокзал).
Гибридный или удаленный формат работы.

Откликнуться

Senior SRE/Site Reliability Engineer

Какие задачи предстоит решать:

Наши ожидания от кандидата:

Что мы ожидаем от этой роли:

Что мы предлагаем:

Похожие вакансии: Новосибирск