Инженер доступности сервисов / SRE в VK Cloud Storage

Дата размещения вакансии: 31.10.2024
Работодатель: VK
Уровень зарплаты:
з/п не указана
Город:
Москва
Ленинградский проспект 70
Требуемый опыт работы:
От 3 до 6 лет
Cloud Storage — объектное хранилище с поддержкой S3 API, которое обеспечивает надёжное масштабируемое хранение и стабильную скорость раздачи любых объектов независимо от числа одновременных обращений. Примеры использования хранилища: потоковая раздача мультимедиа, хостинг сайтов, хранение логов транзакций, электронных документов, хранение больших данных, хранение бэкапов и архивов.
Наши принципы:
  • все сервисы должны быть задублированы как минимум в двух ДЦ;
  • повторяемый прод — все сервисы должны быть описаны в Puppet или в манифестах для Kubernetes;
  • любые повторяемые ручные действия должны быть автоматизированы;
  • бэкапы — любые используемые БД обязаны иметь консистентные бэкапы и инструкции по восстановлению.
Наш стек:
  • инструментарий: Lua, Python, Bash, Tarantool, Nginx, HAProxy, Puppet, Kubernetes, Ansible, БД разных типов;
  • мониторинг: graphite+grafana, prometheus+alertmanager.
Вам предстоит:
  • беспечивать стабильную и безаварийную работу промышленных и тестовых сервисов VKCS (S3 Public) в качестве L3 линии поддержки;
  • принимать участие в устранении инцидентов;
  • помогать с решением клиентских обращений, поступающих на L3 линию поддержки;
  • соблюдать установленные SLA по назначенным обращениям, инцидентам;
  • участвовать в проектах по сокращению time-to-market, в том числе за счёт развития автоматизации в зоне вашей ответственности;
  • осуществлять обновление/модификацию ППО и СПО на тестовых и промышленных сервисах VK CS (S3 Public);
  • принимать участие в дежурствах в формате on-call.
Мы ожидаем, что вы:
  • работали в роли системного администратора или SRE от пяти лет;
  • имеете экспертные знания в эксплуатации Linux-систем;
  • обладаете уверенными знаниями в сетях и стеке TCP/IP, DNS, HTTP;
  • уже работали с инструментами оркестрации и виртуализации;
  • использовали инструменты управления конфигурацией Ansible, Puppet;
  • знакомы с Prometheus или Grafana;
  • используете в своей работе Bash для автоматизации рутины и обладаете базовыми навыками в написании кода на Python или Go;
  • имеете навыки траблшутинга и готовы докапываться до истины, чтобы предотвратить повторяющиеся инциденты.
Будет плюсом:
  • опыт работы с базами данных разных типов;
  • знание энтерпрайзных хранилищ, дисков, клаудов;
  • умение разбираться в оборудовании, железе.