Авито сегодня – около 13 000 Rack/OEM серверов, окружающая их сетевая инфраструктура в топологии CLOS, k8s, DbaaS, PaaS, кластера GPU и много других функций. Ежегодно мы прирастаем тысячами новых “железок”. Все они сейчас живут в арендованных Дата центрах и в будущем у нас будут и свои ЦОДы.
Внутри кластера Core Infrastructure есть новый Юнит Hardware – он отвечает за все, что связано с работой серверов и должен предоставлять это как сервис.
Наши ключевые клиенты:
-
Юнит k8s, команда управляющая более чем 6000 серверов на которых живет одноименная система.
-
Юнит DBA и IaaS, кто предоставляет Managed сервисы всему Авито (базы данных, виртуалки, S3 и т.д.)
-
Горизонтальные направления Search, Recommendations, Data Warehouse, Analytics. Каждый из них требует свой тип серверов и подход к работе с ними.
Команда от 15 человек, в подчинении 3 тимлида – DC, DC R&D, Development
Что предстоит:
-
С нуля сформировать из трех разрозненных команд единое направление HWaaS
-
Полноценно обеспечить внедрение процесса сборки своих серверов и успешное их внедрение в жизненный цикл Авито
-
Спроектировать backend систему управления жизненным циклом
-
Отвечать за развитие фундаментального слоя серверной инфраструктуры Авито и практики управления им
-
Отвечать за долгосрочные планы развития инфраструктуры, её целостность, доступность и отказоустойчивость. Мы целимся в постоянные 99,9% доступности и выше
-
Отвечать за Capacity планирование всех ресурсов (стойки, железо, инженеры) в ЦОДах и их утилизацию
-
Быть ответственным за стратегию направления в горизонте нескольких лет
-
Отвечать за бюджет и его качественное планирование, прогнозирование и исполнение
Мы ожидаем, что ты:
-
Имеешь опыт управления командами и менеджерами. Знаешь как сформировать команду, мотивировать и развивать сотрудников
-
Умеешь ставить сильные, долгосрочные цели и достигать их вместе с командой
-
Хорошо разбираешься в тонкостях работы инфраструктуры
-
Понимаешь и следишь за трендами развития решений, не боишься пробовать новое и упразднять неактуальное
-
Имеешь опыт работы с серверами/сетью/платформенными решениями
-
Знаешь и понимаешь как формируются метрики качества сервиса, доступность и отказоустойчивость и как ими эффективно управлять