Senior DevOps

Дата размещения вакансии: 30.06.2026
Работодатель: LIFE PAY
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
Более 6 лет

LIFE PAY — это технологичная компания, использующая все современные подходы к ведению бизнеса. Мы предлагаем эффективные IT-решения, которые помогают нашим партнерам работать с платежами и автоматизировать бизнес.

Наши люди наш главный драйвер. Здесь ты можешь влиять на процессы и предлагать свои решения: мы открыты для тех, кто хочет менять компанию к лучшему. И готовы вдохновлять тебя новыми интересными задачами.

А еще мы про стабильность: за последние годы, включая кризисные периоды, мы не только сохранили команду, но и выросли в 4 раза.

Топим за то, чтобы в коллективе было комфортно и экологично. Верим, что в такой среде может вырасти каждый член команды. И поощряем достижения понятными и ощутимыми бонусами, в том числе и развитием новых компетенций, конечно если ты этого хочешь.

Работа в LIFE PAY — одно из лучших карьерных решений, что ты можешь принять.

Вся инфраструктура — в облаке (Яндекс.Облако в РФ, AWS за рубежом), плюс небольшой ЦОД. Сотни виртуальных машин, Kubernetes, GitLab CI/CD, Grafana + Prometheus — это наша ежедневная реальность.

Мы ищем Senior DevOps — человека, который будет отвечать за reliability architecture, эксплуатационную готовность платформы и выстраивание системного подхода к observability, recovery и incident management. Цель роли — сделать reliability управляемой дисциплиной, а не набором реакций на инциденты.

Чем будем заниматься:

Reliability Architecture

  • Проектирование модели SLI / SLO / error budget для критичных сервисов
  • Определение требований к service readiness, degradation и recoverability
  • Анализ failure domains: service, cluster, region, provider

Incident & Recovery

  • Развитие incident process, escalation model и post-mortem discipline
  • Формирование recovery playbooks и readiness drills
  • Устранение системных слабых мест, выявленных через инциденты

Observability Strategy

  • Определение observability taxonomy и correlation model в своей области
  • Требования к retention, masking, signal quality и operational truth
  • Интеграция observability в engineering standards совместно с DevOps и Dev

Что для этого от тебя необходимо:

  • Linux: подсистемы, модель безопасности, многозадачность — опыт 5+ лет
  • Python: уверенное программирование для автоматизаций — 3–5 лет
  • Shell scripting на уверенном уровне
  • AWS или Яндекс Облако: опыт от 3 лет
  • Глубокое понимание distributed systems и failure modes
  • Advanced observability: metrics, logs, traces, correlation model
  • Capacity planning, performance и degradation analysis
  • Recovery / DR / failover design
  • Понимание cloud / platform failure domains и межсистемных зависимостей
  • Graceful degradation, load shedding, backpressure, retry budgets, idempotency
  • Blameless postmortem с контролем corrective actions
  • Chaos-informed thinking, gamedays и failure injection
  • Nice-to-have: опыт с PostgreSQL на уровне метрик, managed-режима и performance
  • Техническое лидерство — умение формировать стандарты и policy-level ожидания
  • Проведение сложных incident review и post-mortem
  • Уверенная коммуникация с инженерным и менеджерским контуром
  • Проактивность и самостоятельность — готовность действовать без тикетов на каждый шаг
  • Умение считать стоимость инфраструктуры и принимать решения с оглядкой на cost

Что предлагаем:

  • Удалённый формат работы
  • Работа в аккредитованной IT-компании
  • Доплата ×2 за внерабочие инциденты по ТК РФ или дополнительные дни к отпуску
  • Открытая корпоративная культура, общение на ты, поддержка инициатив
  • Стек без legacy: Kubernetes, GitLab CI/CD, Grafana + Prometheus, IaC
  • Влияние на архитектуру — реальная возможность выстраивать reliability с нуля