Москва
Подписка Яндекс Плюс объединяет многие сервисы Яндекса в экосистему, которой пользуются больше 30 млн человек. Наша команда отвечает за доступность и отказоустойчивость сервисов, выстраивает и автоматизирует процессы на всех уровнях: от заведения нового сервиса до релизного цикла, от disaster-alert до написания постмортема по инциденту.
Среди наших заказчиков — бизнес-команды, разработчики, тестировщики и аналитики. В команде есть как бывшие сисадмины, перешедшие в разработку, так и разработчики, развивающие навыки эксплуатации.
Наш стек:
- Python, Golang, Node.js, Java
- Arcadia — внутренний монорепозиторий Яндекса
- MongoDB, PostgreSQL, ClickHouse, Redis, YDB, LogBroker, Nginx, Envoy, Docker, YP
- AWS и Akamai, Тerraform-спецификации
Мы всегда открыты к новым технологиям и подходам.
Какие задачи вас ждут
Развитие одного из направлений:
- Стабильность — инструменты инцидент-менеджмента (практики, позволяющие держать хороший аптайм)
- Планирование ресурсов — инструменты квотирования железа (практики, позволяющие попадать в точку с заказом железа
- CI/CD — инструменты доставки артефактов до прода (практики, позволяющие делать это беспрерывно и безопасно)
- Безопасность — инструменты аудита сервисов с точки зрения безопасности (практики, позволяющие избегать проблем с безопасностью)
- Поддержка — снижение нагрузки на команду и ускорение ответов нашим пользователям за счёт автоматизации рутины
- Новое направление, задачи в котором варьируются от «поднять копию контура в AWS», до «перепридумать архитектуру существующего сервиса с ограничениями/возможностями для новых задач»
Прочие задачи:
- Участвовать в устранении инцидентов
- Помогать разработчикам с траблшутингом возникающих проблем
- Реагировать на мониторинги, писать новые, избавляться от ненужных
- Общаться с разработчиками во время дежурств и выполнения смежных задач
Мы ждем, что вы
- Работали с UNIX-системами (у нас Ubuntu) и консолью (владение AWK приветствуется, но не обязательно)
- Понимаете, как пользовательские приложения взаимодействуют с операционной системой (слышали про системные вызовы, процессы, треды)
- Понимаете, как устроены сетевые протоколы (размеры полей заголовка ТСР-сегмента не спрашиваем)
- Имели опыт диагностики (интерпретация вывода ps, top, strace, perf, tcpdump)
- Программируете на Python или Go
- Готовы и хотите активно развиваться, изучать новые технологии и инструменты