Новорязанская улица 8Ас2
Обязанности:
- Решение бизнес-задач: Понимание бизнес-проблемы, перевод ее в задачу ML/AI, определение метрик успеха (как технических, так и бизнес-ориентированных)
- Работа с данными: Сбор, анализ и понимание больших и сложных наборов данных (текст, цифры, мультимодальные данные). Предобработка, очистка, feature engineering. Управление данными, обеспечение их качества и согласованности
- Разработка и обучение моделей: Выбор, разработка, обучение, тонкая настройка (fine-tuning) и оценка моделей ML/DL (от классических алгоритмов до современных архитектур трансформеров). Экспериментирование с разными подходами, архитектурами, гиперпараметрами. Работа с распределенным обучением (при необходимости)
- Внедрение в Production (MLOps): Упаковка модели (контейнеризация). Развертывание моделей в production-среды (Kubernetes, облачные сервисы). Создание воспроизводимых пайплайнов обучения/инференса (Airflow, Kubeflow, Metaflow)
- Мониторинг и поддержка: Мониторинг производительности моделей в production (задержка, пропускная способность, использование ресурсов). Анализ сбоев и ошибок модели, оперативное реагирование на деградацию качества. Планирование и выполнение переобучения моделей
Требования:
Глубокое понимание машинного обучения:
- Теория: основы статистики, вероятности, линейной алгебры, мат. анализа
- Алгоритмы: Регрессия, Классификация, Кластеризация, PCA, SVM, Деревья решений (RF, GBDT - XGBoost, LightGBM, CatBoost)
- Оценка моделей: Знание и правильный выбор метрик для разных задач (Accuracy, Precision, Recall, F1, AUC-ROC, LogLoss, BLEU, ROUGE, Perplexity и т.д.)
Глубокое понимание Deep Learning:
- Основы: нейронные сети (FFNN, CNN, RNN/LSTM/GRU), принципы обучения (backprop, оптимизаторы Adam/SGD, регуляризация Dropout/BatchNorm)
- Трансформеры: архитектура (self-attention, encoder-decoder), принципы работы, предобучение (pre-training), тонкая настройка (fine-tuning), prompt engineering/tuning. Опыт работы с LLM
- Frameworks: PyTorch или TensorFlow.Умение эффективно писать и отлаживать код на них
MLOps принципы и практики:
- Версионирование: данных (DVC) и Моделей (MLflow, DVC)
- Контейнеризация: Docker (Желательно)
- Оркестрация: Kubernetes, опыт работы с облачными платформами (AWS SageMaker, GCP Vertex AI, Azure ML - хотя бы одной обязательно)
- Пайплайны: Airflow, Kubeflow Pipelines, Metaflow или аналоги (Обязательно опыт построения/использования)
- Мониторинг: понимание и практический опыт инструментов для мониторинга дрифта и качества моделей (Evidently, WhyLabs, Arize, Prometheus/Grafana
Инженерия признаков (Feature Engineering): умение создавать, отбирать и преобразовывать признаки, особенно для NLP (токенизация, эмбеддинги - Word2Vec, GloVe, контекстные эмбеддинги моделей) и других специфических данных
Облачные платформы: практический опыт работы с одной из основных облачных платформ (AWS, GCP, Azure) и их ML-сервисами
Обработка естественного языка (NLP): глубокое понимание задач NLP (токенизация, NER, классификация текста, машинный перевод, генерация текста, QA) и современных подходов (LLMs)
Знания:
Языки программирования:
- Python (PyTorch, TensorFlow, Scikit-learn, Pandas, NumPy,nltk, spaCy, regex)
- SQL (на уровне сложных запросов)
MLOps Инструменты:
- Git
- Docker (желательно)
- MLflow / DVC (Обязательно - хотя бы один для версионирования моделей/данных)
- Airflow / Kubeflow Pipelines / Metaflow (Обязательно - опыт работы с пайплайнами)
- Инструменты мониторинга (Evidently, WhyLabs, Arize, Prometheus/Grafana)
Прочее:
- Linux/Unix (Обязательно)
- Jupyter Notebook / JupyterLab
- Hugging Face Transformers
Условия:
- Работа в крупной IT-компании, дочернее общество ОАО "РЖД"
- Интересные проекты всероссийского масштаба
- Оформление, отпуска, больничные по ТК, "белая" заработная плата
- График работы: понедельник-пятница, 8-ми часовой рабочий день (работа в офисе)
- Офис в БЦ "Workki", м. Комсомольская, Красные ворота
- ДМС (включая стоматологию)