Senior / Lead DevOps Engineer (Highload & Infrastructure)

Дата размещения вакансии: 25.03.2026
Работодатель: VPNM (Тихонов Денис Олегович)
Уровень зарплаты:
от 300000 до 400000 RUR
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

Мы развиваем крупную распределенную инфраструктуру с большим парком серверов. Наша цель - качественный переход к полной автоматизации отказоустойчивости. Нам нужен инженер, который не просто «поддерживает работу», а проектирует системы, способные сохранять живучесть при сбоях на уровне любых узлов или локаций.

Входной фильтр: Начни свой отклик со слов «Я работал в …», а затем перечисли компании, где ты лично отвечал за инфраструктуру с большим количеством серверов и реализовывал механизмы failsafe. Мы ищем человека с глубоким бэкграундом в Highload - если у тебя нет опыта работы с распределенными системами под нагрузкой, пожалуйста, не трать свое и наше время.

🎯 Твой главный вызов:

Проектирование и внедрение архитектуры, которая обеспечит автоматическую живучесть системы. Твоя задача - реализовать надежные механизмы failsafe и Disaster Recovery, чтобы минимизировать влияние сбоев на уровне отдельных сервисов или целых сегментов сети.

🛠 Твои задачи:

  • Failsafe & Availability: Разработка и внедрение стратегий автоматического обеспечения отказоустойчивости распределенной системы.

  • Highload Optimization: Глубокая настройка и тюнинг Nginx, Redis и ClickHouse для работы под экстремальными нагрузками.

  • Масштабирование: Управление парком из большого количества серверов через IaC (Terraform, Ansible) — обеспечение идентичности и предсказуемости среды.

  • Observability: Настройка мониторинга и алертинга, позволяющая моментально диагностировать проблемы в любой точке инфраструктуры.

  • Системный тюнинг: Оптимизация Linux-стека (Network, I/O) для стабильной работы сервисов.

📋 Требования (Hard Skills):

  • Опыт 5+ лет в эксплуатации высоконагруженных систем.

  • Scale Experience: Реальный опыт управления большим парком серверов и понимание специфики их взаимодействия.

  • Expertise в стеке: Ты досконально знаешь, как готовить Nginx (tuning), Redis (replication/sentinel/cluster) и ClickHouse (cluster/sharding) к работе с большими данными и трафиком.

  • IaC: Профессиональное владение инструментами автоматизации. Вся инфраструктура должна быть описана кодом.

  • Reliability: Практический опыт построения самовосстанавливающихся (self-healing) систем и понимание принципов SRE.

💼 Что мы предлагаем:

  • Работа над технически сложным продуктом без бюрократии и лишних слоев менеджмента.

  • Прямое влияние на архитектурные решения: ты предлагаешь инструменты — ты их внедряешь.

  • Масштабные задачи, требующие нестандартных подходов к инфраструктуре.

  • Полная удаленка и гибкий график.