Site Reliability Engineer

Дата размещения вакансии: 11.11.2024
Работодатель: BetBoom
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
Более 6 лет

Наша команда SRE отвечает за надёжность и доступность сервисов, обеспечивающих работу клубов. Мы поддерживаем множество сервисов, взаимодействуем с несколькими командами разработки, поддерживаем сотни серверов и кластера Kubernetes. Идём по пути открытых технологий и популярных практик. Открыты к новому.

Чем предстоит заниматься:

  • Участие в разработке продуктов (базовый стек: NodeJS/Go/PHP, RabbitMQ, Docker, K8s, Gitlab, Redis, PostgreSQL, MariaDB, Grafana, Prometheus, ELK, Jaeger, Vault);
  • Автоматизация и избавление от рутины в процессах разработки, тестирования и эксплуатации;
  • Поддержка и развитие текущей распределенной инфраструктуры проекта, улучшение здоровья и увеличение аптайма сервисов, участие в инцидентах;
  • Совместная работа с LeSS-командами.

Что мы хотим видеть:

  • Опыт работы SRE, DevOps-инженером или администратором Linux;
  • Уверенное понимание основных подсистем Linux;
  • Опыт администрирования кластеров PostgreSQL, Mariadb: репликация, расследование инцидентов, тонкая настройка под задачи;
  • Опыт администрирования кластеров Kubernetes, работа с Helm 3;
  • Опыт работы с opensource web- и app- сервисами, балансировщиками нагрузки;
  • Опыт программирования на Python/Go/Bash;
  • Понимание TCP/IP стека, HTTP;
  • Опыт реализации и развития CI/СD (особенно на базе GitLab);
  • Понимание и опыт организации комплексного мониторинга, логирования, опыт работы с Prometheus, Grafana, ELK;
  • Опыт автоматизации инфраструктуры, понимание принципов IaC, уверенные знания Ansible и Terraform;
  • Опыт работы с нереляционными СУБД;
  • Понимание DevOps методологии.