Москва
На данный момент мы ищем SRE engineer, который будет работать с нашим клиентом — компанией «ВкусВилл».
Направление «ВкусВилл» занимается комплексной автоматизацией цифровой экосистемы ритейлера уже более 14 лет. В работе используем 1С, MS SQL, GO. В составе направления более 700+ IT-специалистов уровня middle и senior.
Нас выбирают за возможности профессионального развития, стабильность и вклад в ИТ-комьюнити.
Обязанности:
- Поддержка команд и сервисов направлений со стороны инфраструктуры.
- Обеспечение надежности и масштабируемости системы.
- Выявление и устранение узких мест в производительности.
- Настройка систем мониторинга, логирования и трейсинга.
- Предотвращение потенциальных сбоев.
- Оптимизация CI/CD пайплайнов, внедрение инфраструктуры как кода (IaC) и автоматизация рутинных задач.
- Продвижение практик DevOps в сторону разработки: внедрение best practices DevOps, таких как мониторинг SLA, SLO, SLI, анализ инцидентов (postmortem) и управление изменениями.
- Обеспечение безопасности, надежности, отказоустойчивости и быстрого восстановления после сбоев платформы.
- Настройка и поддержка кластеров Big Data (Hadoop, Spark и др.).
- Управление инфраструктурой для Apache Airflow и JupyterHub.
Требования:
- Практический опыт в администрировании и поддержке информационных систем семейства Linux (Debian).
- Владение shell-скриптингом (bash, python) в качестве инструментария для автоматизации рутинной деятельности.
- Практический опыт применения систем оркестрации контейнеров (kubernetes, docker-compose, docker swarm).
- Практический опыт по работе с контейнерами (docker), основы построения Dockerfile и лучших практик в этой области.
- Владение системами управления конфигурациями и развертыванием приложений (ansible, terraform) и практический опыт применения таких систем в процессах построения IaC (Infrastructure as Code).
- Применение инструментов GitLAB CI (написание пайплайнов) и Jenkins.
- Практический опыт применения в работе и администрирования систем мониторинга на базе Prometheus, Zabbix, Grafana, Alert Manager, BlackBox.
- Практический опыт взаимодействия с системами потоковой передачи событий (Kafka, RabbitMQ).
- Практический опыт применения web-серверов и балансировщиков нагрузки (Nginx, Haproxy).
- Практический опыт применения систем централизованного сбора и хранения логов на базе одного из стэков ELK (logstash), EFK (fluentd/fluentbit), EVK (vector), Graylog, Loki.
- Практический опыт применения систем объектного хранения на базе S3 (Minio), а также инструментов доступа к ним.
- Знания Big Data технологий (Spark, Hadoop).
- Опыт настройки и поддержки Apache Airflow и JupyterHub.
Желательно:
- Опыт работы с ML Ops (например с MLflow, Kubeflow, BentoML).
- Знание stream processing (например с Kafka Streams, Flink).
- Опыт в настройке распределенных файловых систем (например с HDFS, Ceph).