SRE engineer (BigData/DWH)

Дата размещения вакансии: 16.01.2025
Работодатель: Автомакон
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

Обязанности:

  • Поддержка команд и сервисов направлений со стороны инфраструктуры.
  • Обеспечение надежности и масштабируемости системы.
  • Выявление и устранение узких мест в производительности.
  • Настройка систем мониторинга, логирования и трейсинга.
  • Предотвращение потенциальных сбоев.
  • Оптимизация CI/CD пайплайнов, внедрение инфраструктуры как кода (IaC) и автоматизация рутинных задач.
  • Продвижение практик DevOps в сторону разработки: внедрение best practices DevOps, таких как мониторинг SLA, SLO, SLI, анализ инцидентов (postmortem) и управление изменениями.
  • Обеспечение безопасности, надежности, отказоустойчивости и быстрого восстановления после сбоев платформы.
  • Настройка и поддержка кластеров Big Data (Hadoop, Spark и др.).
  • Управление инфраструктурой для Apache Airflow и JupyterHub.

​​​​​​​​​​​​​​Требования:

  • Практический опыт в администрировании и поддержке информационных систем семейства Linux (Debian).
  • Владение shell-скриптингом (bash, python) в качестве инструментария для автоматизации рутинной деятельности.
  • Практический опыт применения систем оркестрации контейнеров (kubernetes, docker-compose, docker swarm).
  • Практический опыт по работе с контейнерами (docker), основы построения Dockerfile и лучших практик в этой области.
  • Владение системами управления конфигурациями и развертыванием приложений (ansible, terraform) и практический опыт применения таких систем в процессах построения IaC (Infrastructure as Code).
  • Применение инструментов GitLAB CI (написание пайплайнов) и Jenkins.
  • Практический опыт применения в работе и администрирования систем мониторинга на базе Prometheus, Zabbix, Grafana, Alert Manager, BlackBox.
  • Практический опыт взаимодействия с системами потоковой передачи событий (Kafka, RabbitMQ).
  • Понимание практик Agile, опыт работы с тикетными системами(Atlassian Jira, Я.Трекер и др) и систем для совместной работы над накопленными знаниями (Atlassian Confluence, Bookstack и другие Wiki).
  • Практический опыт применения web-серверов и балансировщиков нагрузки (Nginx, Haproxy, Traefik).
  • Практический опыт применения систем управления реляционными базами данных (PostgreSQL и MySQL), их кластеризация на базе Galera Cluster, Patroni, а также колоночной СУБД ClickHouse.
  • Практический опыт применения NoSQL и Key-Value систем (ElasticSearch, ETCD, Redis, Zookeeper).
  • Практический опыт применения систем централизованного сбора и хранения логов на базе стэков ELK (logstash), EFK (fluentd/fluentbit), EVK (vector), Graylog, Loki.
  • Практический опыт применения систем объектного хранения на базе S3 (Minio), а также инструментов доступа к ним.
  • Навыки работы с облачными системами ( Amazon Web Services, Google Cloud Services или YandexCloud) и их системами управления (Terraform).
  • Знания Big Data технологий (Spark, Hadoop, Kafka).
  • Опыт настройки и поддержки Apache Airflow и JupyterHub.

Желательно:

  • Опыт работы с ML Ops (MLflow, Kubeflow, BentoML).
  • Знание stream processing (Kafka Streams, Flink).
  • Опыт в настройке распределенных файловых систем (HDFS, Ceph).

​​​​​​​​​​​​​​