Техлид в системную разработку внутреннего облака

Дата размещения вакансии: 19.09.2024
Работодатель: Яндекс
Уровень зарплаты:
з/п не указана
Город:
Санкт-Петербург
Требуемый опыт работы:
Более 6 лет

Мы развиваем внутреннее (контейнерное) облако , в котором запущены все сервисы, создаваемые тысячами разработчиков Яндекса. Наша цель — сделать удобное облако для сервисов различного масштаба (от единиц до десятков тысяч контейнеров в сервисе), при этом рационально утилизировав все имеющиеся в нашем распоряжении аппаратные ресурсы. Сейчас под управлением внутреннего облака находятся более 100К железных серверов и заведено более 50К сервисов (счёт контейнеров идет на миллионы), а также несколько HPC-кластеров с современными GPU: мы занимаем три лидирующих места среди российских суперкомпьютеров.

Мы позволяем не только настраивать и запускать сервисы, но и даём пользователю всё, что нужно, чтобы этот сервис эксплуатировать: настраиваем балансировку, предоставляем мониторинг поднятых сервисов, собираем логи, поддерживаем интеграцию с CI/CD и не только. Мы стремимся сделать из облака единую тесно интегрированную платформу (PaaS), с помощью которой разработчики смогут удобно и надёжно разрабатывать и эксплуатировать свои сервисы, используя как стандартные API/UI-механизмы, так и подход Infrastructure as Code.

Помимо этого, мы разрабатываем внутренние инструменты — управление железом, сертификатами, доступами, чтобы минимизировать нагрузку на эксплуатацию облака и поддержку наших пользователей.

Группа системной разработки отвечает за базовый слой облачного ПО , являющийся фундаментом и основой, на которой строится внутреннее облако Яндекса.

Базовый слой состоит, среди прочего, из:

  • системы контейнеризации приложений, которая разработана и широко используется в Яндексе. У системы есть и плагины — например, плагин для сбора контейнерных метрик для экспорта во внутреннюю систему мониторинга, shim для реализации CRI-интерфейса для работы в Kubernetes;
  • системы для эффективной передачи данных на множество серверов по протоколу, схожему с BitTorrent;
  • сервиса для активного мониторинга состояния сети всего Яндекса;
  • агента для управления на хосте BPF-программами, которые гранулярно донастраивают сетевой стек для более эффективной работы;
  • системы для clusterwide-анализа производительности приложений, схожей с Google Cloud Profiler и многого другого.

Ищем опытного техлида, который не побоится большого разнообразия технологий и будет участвовать в их поддержке и развитии, чтобы повысить производительность, отказоустойчивость и удобство облака для пользователей.

Какие задачи вас ждут

  • Поддерживать и развивать существующие системы
  • Проводить ревью кода команды
  • Обсуждать и планировать фичи с коллегами, в том числе из смежных отделов

Мы ждем, что вы

  • Руководили командой и хотите продолжать этим заниматься
  • Знаете Go, C, C++ или Python (не обязательно все языки сразу)
  • Умеете проводить ревью кода
  • Хорошо понимаете принципы работы операционных систем, контейнеризации и сети

Будет плюсом, если вы

  • Имеете опыт проектирования и разработки распределенных сервисов
  • Владеете проблематикой построения облачных сервисов
  • Знаете Linux
  • Занимались многопоточным и асинхронным программированием