Infrastructure Lead

Дата размещения вакансии: 31.03.2026
Работодатель: Kinescope
Уровень зарплаты:
от 300000 RUR
Город:
Москва
Требуемый опыт работы:
Более 6 лет

! У нас нет k8s, docker и облаков - вместо этого оркестрация deb пакетов на bare metal через Ansible
Вот тут можно послушать детали - https://www.youtube.com/watch?v=Xkam_SUWUE0

Kinescope — это высоконагруженная видеоплатформа объединяющая фунционал видеохостинга, проведения трансляций и коммуникаций для бизнеса. С нами бизнес улучшает коммуникации, повышать вовлеченность аудитории, хранит, защищает и показывает миллионы видео ежедневно.

Мы управляем распределенной инфраструктурой в нескольких ЦОД в РФ и глобально, раздаем сотни гигабит трафика, строим новые стыки с операторами связи и многие другое.

Миссия: Делать передовые видео технологии доступными бизнесу.

Продукты: Профессиональный видеохостинг и видеоплеер, аналитика, прямые трансляции, real-time коммуникации

Клиенты: Ведущие медиахолдинги, образовательные учреждения, e-commerce и крупные корпорации.

Зачем эта роль

В Kinescope инфраструктура уже работает: серверы стоят, Ansible катит, мониторинг собирает метрики. Но процессы вокруг этого — в зачаточном состоянии. Дежурств нет, постмортемы не прижились, алерты игнорируются, об инцидентах узнаём от клиентов. Нужен человек, который это изменит — не руками перенастроит Prometheus, а выстроит систему, в которой команда работает предсказуемо.

Что предстоит делать

Процессы и SRE-практики:

  • Внедрить incident management — от обнаружения до постмортема (процесс описан, нужен человек, который его запустит и будет держать)
  • Определить SLO/SLI совместно с продуктом и бизнесом, внедрить error budget
  • Построить дежурства (on-call) — или обосновать, почему автоматика лучше
  • Сделать так, чтобы алерты были actionable, а не фоновым шумом, который все игнорируют
  • Наладить capacity planning — сейчас это «кажется, скоро кончится место»

Команда:

  • Руководить инфраструктурной командой (сейчас: DevOps-инженер, Linux-инженер, ops-инженер)
  • Распределять задачи, растить людей, закрывать пробелы в компетенциях
  • Быть IC (Incident Commander) при серьёзных инцидентах — координировать, а не чинить самому

AI как инструмент:

  • У нас уже используются LLM-агенты для разработки и автоматизации. Мы строим LLM-агента для триажа алертов и сбора контекста при инцидентах. Нужен человек, который видит в этом возможность, а не угрозу
  • Делегировать рутину AI: написание runbook'ов, анализ логов, первичная диагностика, документирование — всё, что можно автоматизировать, должно быть автоматизировано
  • Учить команду работать с AI-инструментами, внедрять их в повседневные процессы

Техническое лидерство (не «руками в консоли»):

  • Принимать архитектурные решения по инфраструктуре: что масштабировать, что упрощать, от чего отказываться
  • Развивать IaC — не писать каждую роль самому, а задать стандарты, code review, тестирование
  • Закрывать технический долг системно, а не героически

Обязательные требования

Опыт построения процессов:

  • Внедрял incident management, on-call, постмортемы — не «читал книгу Google SRE», а реально запускал в команде
  • Определял и внедрял SLO/SLI/error budget
  • Умеет превращать хаос «реагирует кто увидел» в предсказуемый процесс

Лидерство:

  • Руководил инфраструктурной/SRE-командой (3+ человек)
  • Умеет делегировать, а не делать всё сам
  • Способен объяснить бизнесу, зачем нужен error budget, на понятном языке
  • Опыт найма и развития инженеров

Технический фундамент:

  • Linux, сети, системы хранения — на уровне «понимаю архитектуру и могу оценить решение», не обязательно «настрою Ceph с нуля»
  • IaC (Ansible или аналоги) — понимание принципов, code review, стандарты
  • Мониторинг (Prometheus/Grafana или аналоги) — не настройка экспортеров, а проектирование системы алертинга, которая работает
  • CI/CD — понимание пайплайнов, стратегий деплоя, rollback

Отношение к AI:

  • Активно использует LLM в работе (Cursor, Copilot, Claude, ChatGPT — неважно что именно)
  • Видит AI как способ убрать рутину с команды, а не как игрушку
  • Готов внедрять AI-инструменты в процессы команды и учить людей ими пользоваться

Желательно

  • Опыт с on-premise / bare-metal инфраструктурой (не только облака)
  • Опыт с видео/стриминг/CDN — понимание специфики
  • Опыт работы с распределённой инфраструктурой (мульти-ЦОД)
  • Знакомство с FinOps — оптимизация затрат на инфраструктуру

Что НЕ ищем

  • «Классического DevOps», который настроит Jenkins и напишет Dockerfile
  • Человека, который будет сам сидеть в консоли 8 часов в день
  • Того, кто считает, что «у нас всегда так работало» — это аргумент
  • Того, для кого AI — это хайп, который пройдёт

Контекст

  • Стек: ~70 Go-сервисов, Ansible, GitLab CI, Prometheus/Grafana/Loki, PostgreSQL, ClickHouse, Ceph, NATS, собственная CDN
  • Инфраструктура: bare-metal + совсем минимально облака, ЦОД в 4 регионах
  • Команда: 3 инженера (DevOps, Linux, Сетевой) + DBA + storage инженер
  • Что уже есть: работающая инфраструктура, 100+ Ansible-ролей, мониторинг, CI/CD
  • Чего не хватает: процессы, SLO, дежурства, культура постмортемов, системная работа с техдолгом

Условия:

  • Удаленная работа в компактной (30+ человек) команде разработчиков Senior+
  • Возможность работать над известными проектами с высокими нагрузками, на собственной глобальной инфраструктуре
  • Адекватное управление проектом, отсутствие бюрократии, микроменеджмента и трекинга часов
  • Гибкие коммерческие условия и возможность договариваться

    !!! При отклике в сопроводительном письме расскажите об опыте по вакансии в разрезе нашего проекта. Пожалуйста не игнорируйте это, отклики без минимальной сопроводительной информации не рассматриваются