Москва
проспект Андропова 10А
проспект Андропова 10А
Задачи:
- Обеспечение бесперебойной работы сервисов компании;
- Повышение отказоустойчивости и доступности инфраструктуры;
- Совершенствование систем мониторинга, логгирования и алертинга;
- Формирование и контроль SLO, SLI;
- Участие в устранении и расследовании причин инцидентов.
Что мы ждем от кандидата:
- Опыт администрирования и глубокое понимание работы Linux;
- Обязательный опыт администрирования и работы с Kubernetes;
- Отличное знание протоколов TCP/IP, DNS, HTTP;
- Опыт управления инфраструктурой с использованием IaС подхода (у нас Terraform+Ansible);
- Знание SRE-практик (SLA, SLO, SLI);
- Опыт работы с системами мониторинга Prometheus/VictoriaMetrics и Grafana;
- Знание скриптовых языков (python/bash);
- Опыт работы с серверами баз данных (PostgreSQL, Clickhouse), кэш-серверами (Redis) и системами очередей (Kafka, RabbitMQ).