Москва
Обязанности:
- Поддержка команд и сервисов направлений со стороны инфраструктуры.
- Обеспечение надежности и масштабируемости системы.
- Выявление и устранение узких мест в производительности.
- Настройка систем мониторинга, логирования и трейсинга.
- Предотвращение потенциальных сбоев.
- Оптимизация CI/CD пайплайнов, внедрение инфраструктуры как кода (IaC) и автоматизация рутинных задач.
- Продвижение практик DevOps в сторону разработки: внедрение best practices DevOps, таких как мониторинг SLA, SLO, SLI, анализ инцидентов (postmortem) и управление изменениями.
- Обеспечение безопасности, надежности, отказоустойчивости и быстрого восстановления после сбоев платформы.
- Настройка и поддержка кластеров Big Data (Hadoop, Spark и др.).
- Управление инфраструктурой для Apache Airflow и JupyterHub.
Требования:
- Практический опыт в администрировании и поддержке информационных систем семейства Linux (Debian).
- Владение shell-скриптингом (bash, python) в качестве инструментария для автоматизации рутинной деятельности.
- Практический опыт применения систем оркестрации контейнеров (kubernetes, docker-compose, docker swarm).
- Практический опыт по работе с контейнерами (docker), основы построения Dockerfile и лучших практик в этой области.
- Владение системами управления конфигурациями и развертыванием приложений (ansible, terraform) и практический опыт применения таких систем в процессах построения IaC (Infrastructure as Code).
- Применение инструментов GitLAB CI (написание пайплайнов) и Jenkins.
- Практический опыт применения в работе и администрирования систем мониторинга на базе Prometheus, Zabbix, Grafana, Alert Manager, BlackBox.
- Практический опыт взаимодействия с системами потоковой передачи событий (Kafka, RabbitMQ).
- Понимание практик Agile, опыт работы с тикетными системами(Atlassian Jira, Я.Трекер и др) и систем для совместной работы над накопленными знаниями (Atlassian Confluence, Bookstack и другие Wiki).
- Практический опыт применения web-серверов и балансировщиков нагрузки (Nginx, Haproxy, Traefik).
- Практический опыт применения систем управления реляционными базами данных (PostgreSQL и MySQL), их кластеризация на базе Galera Cluster, Patroni, а также колоночной СУБД ClickHouse.
- Практический опыт применения NoSQL и Key-Value систем (ElasticSearch, ETCD, Redis, Zookeeper).
- Практический опыт применения систем централизованного сбора и хранения логов на базе стэков ELK (logstash), EFK (fluentd/fluentbit), EVK (vector), Graylog, Loki.
- Практический опыт применения систем объектного хранения на базе S3 (Minio), а также инструментов доступа к ним.
- Навыки работы с облачными системами ( Amazon Web Services, Google Cloud Services или YandexCloud) и их системами управления (Terraform).
- Знания Big Data технологий (Spark, Hadoop, Kafka).
- Опыт настройки и поддержки Apache Airflow и JupyterHub.
Желательно:
- Опыт работы с ML Ops (MLflow, Kubeflow, BentoML).
- Знание stream processing (Kafka Streams, Flink).
- Опыт в настройке распределенных файловых систем (HDFS, Ceph).