-
Развивает процессы и инструменты для повышения надёжности компании.
-
Быстро передаёт информацию о сбоях командам, которые за них отвечают.
-
Предоставляет удобную и полезную аналитику по сбоям для каждой команды и всей компании.
-
Помогает разрабатывать и проверять гипотезы, чтобы сократить ошибки и время их устранения.
-
Платформу управления инцидентами: референс Grafana Incident, incident io.
-
Сервис для управления SLO: референс Pyrra-dev, Sloth.
-
Доску или календарь событий по всем изменениям в production.
-
Платформу для нагрузочного тестирования.
-
Инструменты chaos engineering.
-
Участвовать в развитии SRE-практик в продуктовых командах.
-
Проводить анализ первопричин масштабных инцидентов.
-
Проводить исследования и эксперименты по повышению надёжности.
-
Прорабатывать требования к надёжности информационных систем.
-
Участвовать в проектировании целевой IT-архитектуры.
Наш стек
-
У нас микросервисная архитектура. Команды работают с последними технологиями, областями вроде машинного обучения и big data, а также свободны в принятии технических и продуктовых решений.
-
Заботимся о качестве кода: проводим ревью, всё покрываем тестами и даём обратную связь.
-
Используем гибкие методологии в разработке: Scrum или Kanban, в зависимости от типа продуктов. Пользуемся OKR для формирования целей, но не ограничиваемся ими.
-
Каждая продуктовая команда может самостоятельно выбирать стек разработки. Мы делаем много проектов на Go, Python (fastapi, asyncio), Java (Spring, Spring boot).
-
Работаем с Kubernetes, Consul, Vault.
-
Много асинхронного взаимодействия на Rabbitmq, Kafka и работы с микросервисной архитектурой.
-
Мониторинг на Prometheus, ELK, Grafana.
-
Есть опыт коммерческой или open-source разработки на Golang от 3 лет.
-
Можешь рассказать о своём вкладе в прошлые проекты.
-
Понимаешь, что такое асинхронное программирование, работаешь с микросервисной архитектурой.
-
Обладаешь хорошими знаниями в System Engineering. Тебя не пугают *nix и Kubernetes.
-
Умеешь создавать надёжные и масштабируемые системы. Знаешь основные паттерны дизайна систем на отказ, а также алгоритмы шардирования, кэширования и балансировки.
-
Разбираешься в SRE-практиках, понимаешь что такое SLO, MTTR и зачем они нужны.
-
Понимаешь, как устроен современный мониторинг. Есть опыт работы как минимум с одним из инструментов observability: Prometheus, Thanos, VictoriaMetrics, AlertManager, Sentry, Grafana, Coroot или другими релевантными.
-
Умеешь смотреть на процессы со стороны и находить то, что можно улучшить или автоматизировать.
-
Уверенные знания предметной области управления инцидентами и алёртами.
-
Опыт разработки системных CLI-утилит или операторов Kubernetes.
-
Опыт использования инструментов нагрузочного тестирования: например, JMeter, Yandex Tank, Grafana k6 или других.
-
Официальная зарплата от 400 000 ₽. Точная сумма зависит от твоих навыков и ожиданий — обсудим их на собеседовании.
-
Пятидневная рабочая неделя с гибким началом и окончанием дня.
-
Удалёнка или любой офис Точки в городах присутствия. Наши офисы — это продуманные опенспейсы, где есть индивидуальные места для работы, зоны отдыха и кухни с кофе и перекусами. Ты можешь самостоятельно выбрать, где работать — ходить в офис необязательно.
-
Возможность работать по-своему. Никто не будет навязывать свои методы, трекать время и контролировать каждое действие. Делаем так, чтобы каждый был услышан и мог влиять.
-
Бесплатное обучение: ты сможешь ездить на IT-конференции, митапы и хакатоны и проходить курсы за счёт компании. А ещё пользоваться нашей библиотекой и платформой с онлайн-курсами.
-
После испытательного срока: бесплатная страховка здоровья со стоматологией и корпоративный психолог.
-
Онлайн-кабинет сотрудника наподобие госуслуг, где ты можешь заказать справку, поставить отпуск или отгул, заказать технику или посмотреть выплаты.
-
Активная корпоративная жизнь: мы проводим спортивные марафоны, гастрономические вечера, музыкальные лайвы и многое другое.