Проект: Наша команда делает систему потокового анализа сетевого трафика.
Основной техстек системы: Apache Flink, Apache Kafka, PostgreSQL, ClickHouse.
Отдельным модулем вынесена среда функционирования ML моделей, написанных на Python и развернутых в скомпилированном виде (через pyinstaller) в контейнере OpenShift.
Сейчас у нас есть три модели:
1. Поведенческий профиль групп хостов при их взаимодействии друг с другом по метрикам трафика (Isolation Forest);
2. Определение типов оборудования в подсетях (Random forest);
3. Кластеризация хостов (Random forest + PCA).
Стек для разработки:
Python 3
ML/нейросети и обработка данных на Python (scikit-learn, numpy, pandas)
Требования:
- Опыт от 2 лет
- Умение писать код, оптимизированный под ограниченные аппаратные ресурсы
- Умение писать безопасный код (весь код проходит проверки SAST/DAST)
- Знание сетевых технологий, ОС (Linux)
- Желание развиваться в направлении data science и ML технологий, умение выявить узкие места в текущих моделях, оптимизировать их, предложить аналоги
- Знание SQL, умение писать SQL запросы и различные типы View, оптимизировать их (у нас ClickHouse и PostgreSQL)
- Способность самостоятельно исследовать подходы по анализу данных, предложить, реализовать, протестировать и докатить решение до промышленной эксплуатации
- Опыт разработки под DevOps, CI/CD, умении пользоваться git, Jenkins (pipeline развертывания пишет отдельная команда)
- Умение писать тесты для своего кода
Условия:
-
Возможность профессионального и карьерного роста в компании, возможность поучаствовать в разных проектах
-
Опыт работы в распределенной команде профессионалов
-
Уровень заработной платы обсуждается индивидуально
-
Возможность работать удаленно