Москва
Обязанности:
- Проводить RnD с целью внедрения нового функционала, совершенствования MLOps-платформы;
- Разворачивать новые инструменты и сервисы MLOps-платформы;
- Cопровождать и развивать инфраструктуру MLOps-платформы: заниматься поиском и оптимизацией узких мест, рассматривать инциденты, устранять аварии, давать консультации пользователям;
- Поддерживать/участвовать в реализации практик DevSecOps (внедрение практик безопасности на всех этапах разработки и применения моделей машинного обучения);
- Проводить мониторинг использования ресурсов и планировать масштабирование инфраструктуры;
- Участвовать в процессах миграции инфраструктуры платформы, подключении новых ресурсов в kubernetes-кластер;
- Внедрять систему мониторинга производительности моделей и сервисов. Настраивать алертинг и логирование для быстрого выявления сбоев или деградации производительности.
Требования:
- Опыт работы по профилю от 3х лет
- Высшее техническое образование
- Навыки администрирования Linux, Kubernetes. Понимание и опыт работы с Docker и CI/CD инструментами. Сетевое администрирование.
- Умение автоматизировать процессы развертывания и масштабирования.
- Анализ производительности инфраструктуры и внесение улучшений для оптимизации скорости работы платформы. Контроль за эффективным использованием ресурсов и затратами.
- Понимание концепции observability. Знакомство с инструментами мониторинга и централизованного логирования. Навыки построения дэшбордов и настройки алертов в Grafana.
- Умение диагностировать проблемы по логам и метрикам и принимать меры по стабилизации систем.
- Умение донести техническое решение до пользователя.
Условия:
- Возможность профессионального и карьерного роста в компании
- Возможность поучаствовать в разных проектах
- Опыт работы в распределенной команде профессионалов
- Уровень заработной платы обсуждается индивидуально
- Оформление в соответствии с ТК РФ в Bell Integrator https://bellintegrator.ru/
- Формат работы Удаленно РФ