Новосибирск
Обязанности:
- Усовершенствовать существующую инфраструктуру в целях повышения ее отказоустойчивости, безопасности и масштабируемости
- Предложить системы мониторинга и систему управления инцидентами (внедрение практик SRE)
- Управлять облачными и локальными ресурсами с использованием контейнеризации и оркестрации Docker, Kubernetes)
- Автоматизировать и поддерживать процессы CI/CD
- Создать и поддерживать документацию по DevOps-процессам и инфраструктуре
Требования:
- Понимание CI/CD процессов и опыт их реализации
- Умение работать с инфраструктурой как кодом (IaC), например, с использованием Terraform или Ansible
- Опыт развертывания и мониторинга ML-моделей в промышленном окружении
- Умение работать с системами логирования и мониторинга (Prometheus, Grafana, ELK/OpenSearch Stack)
- Опыт администрирования Linux-серверов
- Опыт настройки резервного копирование и клонирование дисков в Ubuntu
- Опыт работы с Kubernetes (установка, настройка, обновление, Helm-чарты)
- Опыт работы с различными типами хранилищ данных: SQL (PostgreSQL, ClickHouse), объектные хранилища (S3/MinIO)
- Навыки написания скриптов на Python, Bash
- Опыт администрирования прод сервера в компании с числом пользователей более 100
- Опыт настройки Docker Compose
- Опыт или глубокое понимание настройки систем резервирования и восстановления систем в проде (не обязательно RAID)