Site Reliability Engineer

Дата размещения вакансии: 10.11.2024
Работодатель: VK
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

Отдел эксплуатации VK — техническое сердце компании. Мы собрали одну из лучших команд в рунете, обладающую уникальной экспертизой в области сетевых технологий и системного администрирования. Мы используем всё самое выдающееся, что есть на рынке, а зачастую и создаём передовые технологии.

SRE занимаются эксплуатацией всех продуктов компании и обеспечивают 24х7 доступность сервисов для наших пользователей. Сейчас мы ищем сильных инженеров в разные проекты VK.

Задачи:
  • обеспечение непрерывного доступа к ресурсам для внешних и внутренних пользователей;
  • развитие и масштабирование продуктов — наша инфраструктура состоит из множества сервисов в геораспределённых дата-центрах, мы также планируем наши вычислительные ресурсы и прогнозируем их утилизацию;
  • оперативная работа с мониторингом и стратегическая с инцидентами — мы не только разрешаем текущие инциденты, но и постоянно работаем над предотвращением их появления в будущем;
  • автоматизация работы с инфраструктурой — наши команды SRE занимаются полным циклом сопровождения продуктовой среды от удалённой установки ОС до описания деплойментов (Helm-чартов, Kubernetes-операторов, манифестов Puppet, Playbook Ansible);
  • участие в жизненном цикле продуктов — мы тесно связаны с нашими командами разработки, двусторонняя обратная связь между нашими командами позволяет добиться лучших результатов в продукте и совместно влиять на наиболее критичные, узкие места в наших сервисах и инфраструктуре.

Требования:

  • опыт работы с ОС Linux от трёх лет и более — на интервью мы поговорим обо всём, от syscall до cgroups и namespaces;
  • понимание принципов работы с Сетью — мы уверены, что вы точно знаете, чем отличаются L3, L4 и L7, а также назовёте практическую разницу между DROP и REJECT;
  • опыт работы с СУБД (основные для нас MySQL и PostgreSQL) — высокая доступность, планы запросов, оптимизация работы сервера, метрики и мониторинг;
  • системы управления конфигурациями, деплоймент и шаблонизация, ожидаем, что вы знакомы с Ansible/Puppet или Salt, а также использовали Helm;
  • мониторинг — мы ожидаем, что вы знакомы с Graphite, Prometheus или Grafana;
  • CI/CD — считаем, что вы знакомы с непрерывной поставкой кода и практиковали это ранее.

Будет плюсом:

  • RHEL/CentOS/Almalinux — мы используем именно это семейство ОС;
  • возможность решать поставленные задачи на Python или Go;
  • продуктовый опыт работы с ClickHouse, MongoDB или Redis.