Москва
Ваша зона ответственности:
- Выстраивать высокотехнологичное окружение эксплуатации - мониторинг, ci/cd, обеспечение безопасности и катастроф устойчивости
- Планировать и проводить работы на тестовых инсталляциях
- Оказывать консультации о параметрах работы системы, локализовывать проблемы, эскалировать баги на разработчиков, участвовать в развитии архитектуры систем
- Повышать наблюдаемость приложений
- Документировать активности в wiki/системах трекинга, описывать архитектуру взаимодействия компонентов, процедур обновления
- Взаимодействовать с разработчиками продукта, QA, DevOps
- Участвовать в развитии SRE практик компании
- Проведение работ по повышению отказоустойчивости и масштабируемости сервисов
Необходимые навыки:
- Уверенные знания в установке, настройке и администрировании ПО под Linux
- Опыт работы с командными оболочками Linux (обработка журналов событий– awk, sed, написание скриптов для автоматизации и облегчения выполнения задач, и т.п.), знание python/go на базовом уровне
- Навыки DevOps, эксплуатация и поддержка готовых CI/CD окружений (Gitlab/Jenkins), работа с Terraform/Ansible
- Навыки работы с Docker, Kubernetes, диагностика проблем, эксплуатация и поддержка
- Опыт работы с системами мониторинга Prometheus stack, Grafana и т.п.
- Опыт работы с инцидентами – анализировать, решать, передавать на следующую линию, учитывать в баг-треккинговой системе