LIFE PAY — это технологичная компания, использующая все современные подходы к ведению бизнеса. Мы предлагаем эффективные IT-решения, которые помогают нашим партнерам работать с платежами и автоматизировать бизнес.
Наши люди — наш главный драйвер. Здесь ты можешь влиять на процессы и предлагать свои решения: мы открыты для тех, кто хочет менять компанию к лучшему. И готовы вдохновлять тебя новыми интересными задачами.
А еще мы про стабильность: за последние годы, включая кризисные периоды, мы не только сохранили команду, но и выросли в 4 раза.
Топим за то, чтобы в коллективе было комфортно и экологично. Верим, что в такой среде может вырасти каждый член команды. И поощряем достижения понятными и ощутимыми бонусами, в том числе и развитием новых компетенций, конечно если ты этого хочешь.
Работа в LIFE PAY — одно из лучших карьерных решений, что ты можешь принять.
Вся инфраструктура — в облаке (Яндекс.Облако в РФ, AWS за рубежом), плюс небольшой ЦОД. Сотни виртуальных машин, Kubernetes, GitLab CI/CD, Grafana + Prometheus — это наша ежедневная реальность.
Мы ищем Senior DevOps — человека, который будет отвечать за reliability architecture, эксплуатационную готовность платформы и выстраивание системного подхода к observability, recovery и incident management. Цель роли — сделать reliability управляемой дисциплиной, а не набором реакций на инциденты.
Чем будем заниматься:
Reliability Architecture
- Проектирование модели SLI / SLO / error budget для критичных сервисов
- Определение требований к service readiness, degradation и recoverability
- Анализ failure domains: service, cluster, region, provider
Incident & Recovery
- Развитие incident process, escalation model и post-mortem discipline
- Формирование recovery playbooks и readiness drills
- Устранение системных слабых мест, выявленных через инциденты
Observability Strategy
- Определение observability taxonomy и correlation model в своей области
- Требования к retention, masking, signal quality и operational truth
- Интеграция observability в engineering standards совместно с DevOps и Dev
Что для этого от тебя необходимо:
- Linux: подсистемы, модель безопасности, многозадачность — опыт 5+ лет
- Python: уверенное программирование для автоматизаций — 3–5 лет
- Shell scripting на уверенном уровне
- AWS или Яндекс Облако: опыт от 3 лет
- Глубокое понимание distributed systems и failure modes
- Advanced observability: metrics, logs, traces, correlation model
- Capacity planning, performance и degradation analysis
- Recovery / DR / failover design
- Понимание cloud / platform failure domains и межсистемных зависимостей
- Graceful degradation, load shedding, backpressure, retry budgets, idempotency
- Blameless postmortem с контролем corrective actions
- Chaos-informed thinking, gamedays и failure injection
- Nice-to-have: опыт с PostgreSQL на уровне метрик, managed-режима и performance
- Техническое лидерство — умение формировать стандарты и policy-level ожидания
- Проведение сложных incident review и post-mortem
- Уверенная коммуникация с инженерным и менеджерским контуром
- Проактивность и самостоятельность — готовность действовать без тикетов на каждый шаг
- Умение считать стоимость инфраструктуры и принимать решения с оглядкой на cost
Что предлагаем:
- Удалённый формат работы
- Работа в аккредитованной IT-компании
- Доплата ×2 за внерабочие инциденты по ТК РФ или дополнительные дни к отпуску
- Открытая корпоративная культура, общение на ты, поддержка инициатив
- Стек без legacy: Kubernetes, GitLab CI/CD, Grafana + Prometheus, IaC
- Влияние на архитектуру — реальная возможность выстраивать reliability с нуля