Старший/ Ведущий инженер эксплуатации ПО

Дата размещения вакансии: 18.11.2024
Работодатель: YADRO
Уровень зарплаты:
з/п не указана
Город:
Нижний Новгород
Требуемый опыт работы:
От 3 до 6 лет

Задачи:

  • Приём в эксплуатацию и запуск компонентов и сервисов AI платформы;
  • Обеспечение доступности компонентов и сервисов в соответствии с принятыми SLA AI платформы;
  • Участие в развитии и масштабировании инфраструктуры AI платформы;
  • Активное взаимодействие с командами разработки, тестирования и поддержки AI платформы;
  • Настройка, мониторинг, автоматизация, улучшение CI/CD процессов AI платформы;
  • Участие в жизненном цикле компонентов и сервисов AI платформы;
  • Проверка и подготовка документации и инструкций для L1.

Что мы ожидаем от будущего члена команды:

  • Опыт поддержки prod окружений от 3-х лет;
  • Опыт построения prod систем "с нуля";
  • Опыт администрирования Linux от 3-х лет;
  • Опыт работы с сетями (Ethernet) от 3-х лет. Фундаментальные знания и опыт траблшутинга сетевого стека TCP/IP (TCP, UDP, NAT/SNAT/DNAT/PAT, HTTP/HTTPS, DNS);
  • Понимание основ ИБ (Сетевая безопасность, сертификаты, правила работы со служебной информацией).

Будет плюсом:

  • Опыт подготовки документации (Confluence);
  • Понимание, что такое SLA/SLO/SLI, и как c ними работать;
  • Опыт взаимодействия с 1 линией ТП, в том числе разработка/модификация инструкций для L1;
  • Опыт работы с контейнерными средами и платформами их оркестрации (Docker\Podman, Kubernetes);
  • Опыт работы с ML окружением;
  • Опыт работы с брокерами сообщений (Kafka);
  • Понимание принципов CI/CD и подхода к описанию инфраструктуры Infrastructure as Code;
  • Уверенная работа с системой управления конфигурациями Ansible;
  • Опыт работы с платформой мониторинга и логирования на базе Victoria Metrics/Prometheus, Alert Manager, Grafana, OpenSearch, в том числе настройка сборщиков метрик, получения логов от приложения и настройка на их основе дашбордов, создание модификация дашбордов в Grafana.

Наш стек:

  • Linux (deb-based) / Ethernet.
  • Jenkins (Groovy DSL)
  • Ansible, Helm, ArgoCD.
  • Kubernetes.
  • HAProxy, NGinx.
  • Kafka
  • Zookeeper, Consul.
  • ClickHouse, OpenSearch, PostgreSQL, MongodDB.
  • Victoria Metrics, Grafana.
  • GlusterFS, S3.
  • Bash, Python/Go.

Будем рады предложить:

  • Стать частью крупной стабильной компании, разрабатывающей и производящей высокотехнологичное оборудование, а также ежегодно увеличивающей долю рынка и финансовые показатели;
  • Конкурентный уровень заработной платы (готовы по достоинству оценить ваши знания и опыт);
  • График работы с 10:00 до 19:00 с гибким началом и окончанием рабочего дня.