Site Reliability Engineer

Дата размещения вакансии: 10.11.2024

Работодатель: VK

Уровень зарплаты:

з/п не указана

Город:

Москва

Требуемый опыт работы:

От 3 до 6 лет

Отдел эксплуатации VK — техническое сердце компании. Мы собрали одну из лучших команд в рунете, обладающую уникальной экспертизой в области сетевых технологий и системного администрирования. Мы используем всё самое выдающееся, что есть на рынке, а зачастую и создаём передовые технологии.

SRE занимаются эксплуатацией всех продуктов компании и обеспечивают 24х7 доступность сервисов для наших пользователей. Сейчас мы ищем сильных инженеров в разные проекты VK.

Задачи:

обеспечение непрерывного доступа к ресурсам для внешних и внутренних пользователей;
развитие и масштабирование продуктов — наша инфраструктура состоит из множества сервисов в геораспределённых дата-центрах, мы также планируем наши вычислительные ресурсы и прогнозируем их утилизацию;
оперативная работа с мониторингом и стратегическая с инцидентами — мы не только разрешаем текущие инциденты, но и постоянно работаем над предотвращением их появления в будущем;
автоматизация работы с инфраструктурой — наши команды SRE занимаются полным циклом сопровождения продуктовой среды от удалённой установки ОС до описания деплойментов (Helm-чартов, Kubernetes-операторов, манифестов Puppet, Playbook Ansible);
участие в жизненном цикле продуктов — мы тесно связаны с нашими командами разработки, двусторонняя обратная связь между нашими командами позволяет добиться лучших результатов в продукте и совместно влиять на наиболее критичные, узкие места в наших сервисах и инфраструктуре.

Требования:

опыт работы с ОС Linux от трёх лет и более — на интервью мы поговорим обо всём, от syscall до cgroups и namespaces;
понимание принципов работы с Сетью — мы уверены, что вы точно знаете, чем отличаются L3, L4 и L7, а также назовёте практическую разницу между DROP и REJECT;
опыт работы с СУБД (основные для нас MySQL и PostgreSQL) — высокая доступность, планы запросов, оптимизация работы сервера, метрики и мониторинг;
системы управления конфигурациями, деплоймент и шаблонизация, ожидаем, что вы знакомы с Ansible/Puppet или Salt, а также использовали Helm;
мониторинг — мы ожидаем, что вы знакомы с Graphite, Prometheus или Grafana;
CI/CD — считаем, что вы знакомы с непрерывной поставкой кода и практиковали это ранее.

Будет плюсом:

RHEL/CentOS/Almalinux — мы используем именно это семейство ОС;
возможность решать поставленные задачи на Python или Go;
продуктовый опыт работы с ClickHouse, MongoDB или Redis.

Откликнуться

Site Reliability Engineer

Похожие вакансии: Москва