В NOVACARD мы создаём продукт, который меняет подход к кредитованию: первая в Мексике карта без процентов и годового обслуживания, полностью управляемая через мобильное приложение.
Сейчас мы ищем Site Reliability Engineer (SRE), который будет отвечать за стабильность, производительность и надёжность наших ключевых продакшн-систем.
Вы будете работать на стыке разработки и эксплуатации — создавать инструменты автоматизации, повышать наблюдаемость и предотвращать инциденты до их возникновения.
Чем предстоит заниматься:
-
Обеспечивать стабильность, производительность и отказоустойчивость продакшн-систем;
-
Разрабатывать и поддерживать инструменты для автоматизации инфраструктуры и наблюдаемости;
-
Мониторить состояние систем, реагировать на инциденты и проводить анализ первопричин (RCA);
-
Сотрудничать с командами разработки для повышения масштабируемости и надёжности сервисов;
-
Определять и контролировать SLI, SLO и Error Budgets;
-
Руководить инцидентами: организовывать процесс восстановления, документировать RCA и проводить постмортемы;
-
Настраивать и администрировать Grafana и Zabbix, проектировать информативные дашборды и оптимизировать алерты;
-
Интегрировать и мониторить внешние вендорские системы, взаимодействовать с технической поддержкой поставщиков.
Наши ожидания:
-
Свободное владение русским языком, английский — не ниже B1 (уверенное чтение технической документации);
-
Опыт работы в роли SRE / DevOps / Infrastructure Engineer от 3 лет;
-
Отличное понимание принципов observability (metrics, logs, traces);
-
Практический опыт работы с Grafana и Zabbix (администрирование, настройка, оптимизация алертов);
-
Навыки работы с AWS и CI/CD-инструментами;
-
Знание и применение принципов SLI / SLO / Error Budgets на практике;
-
Опыт проведения и документирования инцидентов и постмортемов;
-
Навыки написания скриптов для автоматизации (Python, Bash или Go);
-
Понимание принципов работы распределённых систем и сетевых протоколов.
Будет плюсом:
-
Опыт мониторинга и поддержки мобильных приложений;
-
Знание Terraform, Prometheus, Loki, ELK или аналогичных инструментов;
-
Опыт работы с Kubernetes и контейнеризацией.
Мы предлагаем:
-
Динамичный и быстроразвивающийся бизнес, ресурсы и возможность вместе создать выдающийся продукт на мировых рынках Азии, Латинской Америки, Европы и СНГ;
-
Официальное оформление в соответствии с ТК РФ (мы аккредитованная IT-компания);
-
Стабильную «белую» заработную плату с прозрачным учетом всех выплат + бонусы за достижение KPI;
-
ДМС (включая стоматологию) с первого рабочего дня при трудоустройстве по ТК РФ;
-
Современную рабочую технику;
-
Удалённую работу из любой точки мира;
-
Гибкое начало и окончание рабочего дня;
-
Работу в дружной команде профессионалов.