У команды два основных фокуса работы:
-
Снижение количества инцидентов в продакшене.
-
Сокращение времени восстановления при инцидентах и поддержание положительной динамики MTTR.
Проекты и задачи:
-
Развитие инструментов для реагирования и управления инцидентами.
-
Внедрение подходов Chaos Engineering для лучшего понимания системы и выявления слабых мест.
-
Разработка платформы для тестирования производительности.
-
Улучшение наблюдаемости системы.
-
Проектировать и разрабатывать инструменты Chaos Engineering для тестирования устойчивости сервисов Точки через внедрение ошибок.
-
Автоматизировать реагирование на инциденты и повышать эффективность координации — от ChatOps-решений до систем автовосстановления и Graceful Degradation.
-
Разрабатывать каталог SLO с возможностью декларативного описания индикаторов и автогенерации артефактов для управления бюджетом ошибок на выходе.
-
Улучшать observability Точки: разрабатывать дашборды для координации инцидентов, системы обнаружения аномалий, визуализации таймлайнов изменений в продакшене и многое другое.
-
Исследовать систему, анализировать глобальные сбои, изучать существующие решения и практики, чтобы найти новые проекты для повышения надёжности Точки. Решения охватывают более 80 команд и 900 сервисов.
Наш стек
-
В Точке микросервисная архитектура и много асинхронного взаимодействия на RabbitMQ, Kafka. Команды работают с последними технологиями, областями вроде машинного обучения и big data, а также свободны в принятии технических и продуктовых решений.
-
Заботимся о качестве кода: проводим ревью, всё покрываем тестами и даём обратную связь.
-
Используем гибкие методологии в разработке: Scrum или Kanban, в зависимости от типа команд. Пользуемся OKR для формирования целей, но не ограничиваемся ими.
-
Каждая команда может самостоятельно выбирать стек разработки. В нашей команде приоритет отдается Go, но также есть проекты на Python.
-
Работаем с Kubernetes, Consul, Vault и Gitlab CI.
-
Для мониторинга используем Prometheus, ELK, Jaeger, Grafana и Sentry.
-
Есть опыт платформенной или системной разработки на Go от 3 лет.
-
Понимаешь архитектуру распределённых систем и знаешь, как обеспечить их надёжность и масштабируемость.
-
Знаешь паттерны дизайна систем на отказ и применяешь их на практике.
-
Понимаешь, как устроен современный мониторинг и сбор телеметрии.
-
Есть опыт работы как минимум с одним из инструментов observability: Prometheus, Thanos, VictoriaMetrics, AlertManager, Sentry, Grafana, Coroot или другими релевантными.
-
Разбираешься в системной инженерии, *nix и Kubernetes.
-
Интерес к Reliability и Resilience engineering.
-
Опыт и знания в предметной области управления инцидентами и алертами.
-
Владение несколькими языками программирования: в команде есть проекты, написанные на Python и Go.
-
Официальная зарплата от 460 000 ₽. Точная сумма зависит от твоих навыков и ожиданий — обсудим их на собеседовании. Это сумма до вычета налогов. Помни, что с 2025 года ставка НДФЛ меняется в зависимости от суммарного дохода за год.
-
Пятидневная рабочая неделя с гибким началом и окончанием дня.
-
Удалёнка или любой офис Точки в городах присутствия. Наши офисы — это продуманные опенспейсы, где есть индивидуальные места для работы, зоны отдыха и кухни с кофе и перекусами. Ты можешь самостоятельно выбрать, где работать — ходить в офис необязательно.
-
Возможность работать по-своему. Никто не будет навязывать свои методы, трекать время и контролировать каждое действие. Делаем так, чтобы каждый был услышан и мог влиять.
-
Бесплатное обучение: ты сможешь ездить на IT-конференции, митапы и хакатоны и проходить курсы за счёт компании. А ещё пользоваться нашей библиотекой и платформой с онлайн-курсами.
-
После испытательного срока: бесплатная страховка здоровья со стоматологией и корпоративный психолог.
-
Онлайн-кабинет сотрудника наподобие госуслуг, где ты можешь заказать справку, поставить отпуск или отгул, заказать технику или посмотреть выплаты.
-
Активная корпоративная жизнь: мы проводим спортивные марафоны, гастрономические вечера, музыкальные лайвы и многое другое.