Авито сегодня – около 13 000 Rack/OEM серверов, окружающая их сетевая инфраструктура в топологии CLOS, k8s, DbaaS, PaaS, кластера GPU и много других функций. Ежегодно мы прирастаем тысячами новых “железок”. Все они сейчас живут в арендованных Датацентрах и в будущем у нас будут и свои ЦОДы.
Внутри общего набора компонентов есть Юнит System – он отвечает за все, что связано с работой низкоуровневых корневых платформенных сервисов, таких как CDN, DNSaaS, Proxmox, IAC, различные CI/CD и т.д
Команда от 20 человек, в подчинении 3 тимлида
Что предстоит:
-
Обеспечение высокой стабильности корневых сервисов Авито и достижение SLA 99,99%
-
Развитие команды и переход от ручной работы к созданию платформенных решений на базе существующих продуктов
-
Разработка новых сервисов, обеспечивающих горизонтально масштабирование
-
Обеспечение функций Run-Change для команды
-
Управление дистрибуцией трафика и настройка Nginx и низ
лежащей инфраструктурой
-
Proxmox виртуализация, включая LXC Работа с ядрами *nix, дистрибутивами, пакетами и прошивками
-
Разработка и поддержка своих сервисов: DNSaaS, CDN, IACK Управление Puppet/Ansible инфраструктурой
-
Адмистрирование различных сложных инфраструктурных проектов (финансовые системы, карточные, CRM, и т.д.)
-
Помощь всем пользователям в решении проблем в работе с ssh, мониторингом, в т.ч метриками
Мы ожидаем, что ты:
-
Имеешь опыт управления командами и менеджерами. Знаешь как сформировать команду, мотивировать и развивать сотрудников
-
Умеешь ставить сильные, долгосрочные цели и достигать их вместе с командой
-
Хорошо разбираешься в тонкостях работы инфраструктуры
-
Имеешь опыт в DevOps/SRE более 3-ех лет
-
Понимаешь и следишь за трендами развития решений, не
боишься пробовать новое и упразднять неактуальное
-
Имеешь опыт работы с сетью/платформенными решениями
-
Знаешь и понимаешь как формируются метрики качества сервиса, доступность и отказоустойчивость и как ими эффективно управлять