Senior/Principal SRE-инженер в команду трафика Core Infrastructure

Дата размещения вакансии: 30.10.2024
Работодатель: Яндекс
Уровень зарплаты:
от 400000 RUR
Город:
Москва
Требуемый опыт работы:
Более 6 лет

Группа управления трафиком, является важной частью команды околосетевой разработки и помогает пользователям и сервисам находить друг друга.

Для этого у нас есть третий и четвертый уровни модели OSI, инфраструктура DNS, динамическая маршрутизация и кое-что ещё. В работе мы используем bare metal-серверы, виртуализацию в собственных облачных системах и планируем интеграцию с внешними облачными провайдерами. Нагрузка на наши системы высока и постоянно увеличивается, а требования к надёжности таковы, что дальше им расти уже некуда.

Мы ищем человека, готового бесстрашно искать в самых укромных уголках системы и софта «дополнительные 2% производительности». Человека, который сможет соединить несколько систем для управления разными компонентами инфраструктуры в единый комплекс. Того, кто не верит в доступность систем 99.99, но имеет собственные идеи о том, как добавить в этот ряд ещё одну или две девятки.

Какие задачи вас ждут:

  • бесшовно переносить систему балансировки нагрузки на новый data plane;
  • строить отчуждаемую инфраструктуру управления DNS и балансировкой;
  • интегрировать внешние облачные системы DNS и NLB с внутренними системами управления;
  • повышать скорость и надёжность работы разных подсистем в DNS и балансировке трафика.

Мы ждём, что вы:

  • хорошо понимаете устройство Linux и современных систем виртуализации и контейнеризации;
  • разбираетесь в архитектуре современных веб-сервисов и понимаете их требования к инфраструктуре;
  • имеете опыт отладки, работали с perf и gdb;
  • имеете опыт разработки на одном из языков: Python, Go или C++;
  • знакомы с устройством сетевого стека Linux;
  • работали с протоколом IPv6;
  • имеете опыт эксплуатации сервисов 24х7.

Будет плюсом, если вы:

  • умеете работать с bpftool и в целом понимаете работу BPF;
  • имеете опыт проектирования и разработки новых сервисов;
  • понимаете процессы инцидент-менеджмента SLA, SLO, SLI и занимались их организацией;
  • имеете лидерские качества и опыт руководства командой;
  • знаете английский язык на уровне Intermediate и выше.