Чем предстоит заниматься:
-
Развитием и администрированием высоконагруженной системы;
-
Планированием требуемых ресурсов, реализацией отказоустойчивости и высокой доступности сервисов;
-
Описанием инфраструктуры как код (Ansible);
-
Управлением кластерами Kubernetes;
-
Настройкой процессов CI/CD;
-
Настройкой мониторинга Prometheus/Grafana, выпуском релизов.
Наши пожелания к кандидату:
-
Опыт работы с высоконагруженными отказоустойчивыми системами;
-
Опыт развертывания и администрирования кластеров Kafka, MinIO;
-
Умение диагностировать проблемы (в том числе анализ логов);
-
Опыт настройки компонентов наблюдаемости (логирование, мониторинг, алертинг);
-
Опыт работы с техстеком: Kubernetes, Ansible, Bash, Gitlab CI, Python.
Будет плюсом:
- Опыт работы c MLOps фреймворком Kubeflow PipelinesОпыт работы Solution-архитектором;
- Опыт работы Solution-архитектором;
- Настройка и поддержка подсистемы хранения для Kubernetes (Persistent Volumes).