Чем предстоит заниматься:
• Эксплуатация нагруженных распределенных систем
• Администрирование и поддержка инфраструктуры на базе ОС Linux (преимущественно) и OC Windows (минимальная поддержка)
• Развитие инфраструктуры, Обслуживание оборудования в ЦОД (установка нового, поддержка текущего парка, сетевая инфраструктура)
• Развитие системы мониторинга
• Исследование нештатных ситуаций и проблем (troubleshooting)
Для это потребуется:
• Уверенное знание ОС Linux, файловых систем, работы сетей на уровнях L2+
• Опыт построения высокодоступных и отказоустойчивых систем 24/7 99,99%+
• Опыт продолжительной поддержки быстрорастущих сервисов, превентивные работы по масштабируемости и отказоустойчивости
• Опыт работы и понимание внутреннего устройства СУБД PostgreSQL
• Опыт работы и понимание внутреннего устройства Ceph,
• Опыт работы с системами виртуализации proxmox
• Опыт промышленной работы с Redis, MongoDB, Docker
• Опыт работы с системами мониторинга Zabbix/Prometheus
• Готовность работать во внеурочное время для разовых работ и разрешения инцидентов
Будет преимуществом:
• Уверенное владение Python
• Навык построения производительных кластеров на десятки петабайт
• Опыт построения производительных HPC кластеров
• Знание NVlink, dma, infiniband
• Опыт работы с 1С
• Опыт работы с ML фреймворками для распределенного обучения
• Kubernetes, Terraform, Ansible
• Опыт взаимодействия с командой разработки
Возможны варианты:
- гибрид или работа в офисе .
- Современный комфортный офис в 5-ти минутах ходьбы от м. Тимирязевская. В офисе: компенсация питания, зоны отдыха и свежесваренный кофе, бесплатная парковка
- традиционно ,хорошо решены вопросы медицинского обслуживания (страхования), проезда и др.)
- ищем золотую середину - наши задачи -ваши возможности
- Мы поддерживаем work–life balance
- Реферальная программа: благодарим сотрудников за рекомендации сильных кандидатов