Data scientist (ML Engineer)

Дата размещения вакансии: 19.11.2025

Работодатель: РЖД - Цифровые пассажирские решения

Уровень зарплаты:

з/п не указана

Город:

Москва
Новорязанская улица 8Ас2

Требуемый опыт работы:

От 3 до 6 лет

Обязанности:

Решение бизнес-задач: Понимание бизнес-проблемы, перевод ее в задачу ML/AI, определение метрик успеха (как технических, так и бизнес-ориентированных)
Работа с данными: Сбор, анализ и понимание больших и сложных наборов данных (текст, цифры, мультимодальные данные). Предобработка, очистка, feature engineering. Управление данными, обеспечение их качества и согласованности
Разработка и обучение моделей: Выбор, разработка, обучение, тонкая настройка (fine-tuning) и оценка моделей ML/DL (от классических алгоритмов до современных архитектур трансформеров). Экспериментирование с разными подходами, архитектурами, гиперпараметрами. Работа с распределенным обучением (при необходимости)
Внедрение в Production (MLOps): Упаковка модели (контейнеризация). Развертывание моделей в production-среды (Kubernetes, облачные сервисы). Создание воспроизводимых пайплайнов обучения/инференса (Airflow, Kubeflow, Metaflow)
Мониторинг и поддержка: Мониторинг производительности моделей в production (задержка, пропускная способность, использование ресурсов). Анализ сбоев и ошибок модели, оперативное реагирование на деградацию качества. Планирование и выполнение переобучения моделей

Требования:

Глубокое понимание машинного обучения:

Теория: основы статистики, вероятности, линейной алгебры, мат. анализа
Алгоритмы: Регрессия, Классификация, Кластеризация, PCA, SVM, Деревья решений (RF, GBDT - XGBoost, LightGBM, CatBoost)
Оценка моделей: Знание и правильный выбор метрик для разных задач (Accuracy, Precision, Recall, F1, AUC-ROC, LogLoss, BLEU, ROUGE, Perplexity и т.д.)

Глубокое понимание Deep Learning:

Основы: нейронные сети (FFNN, CNN, RNN/LSTM/GRU), принципы обучения (backprop, оптимизаторы Adam/SGD, регуляризация Dropout/BatchNorm)
Трансформеры: архитектура (self-attention, encoder-decoder), принципы работы, предобучение (pre-training), тонкая настройка (fine-tuning), prompt engineering/tuning. Опыт работы с LLM
Frameworks: PyTorch или TensorFlow.Умение эффективно писать и отлаживать код на них

MLOps принципы и практики:

Версионирование: данных (DVC) и Моделей (MLflow, DVC)
Контейнеризация: Docker (Желательно)
Оркестрация: Kubernetes, опыт работы с облачными платформами (AWS SageMaker, GCP Vertex AI, Azure ML - хотя бы одной обязательно)
Пайплайны: Airflow, Kubeflow Pipelines, Metaflow или аналоги (Обязательно опыт построения/использования)
Мониторинг: понимание и практический опыт инструментов для мониторинга дрифта и качества моделей (Evidently, WhyLabs, Arize, Prometheus/Grafana

Инженерия признаков (Feature Engineering): умение создавать, отбирать и преобразовывать признаки, особенно для NLP (токенизация, эмбеддинги - Word2Vec, GloVe, контекстные эмбеддинги моделей) и других специфических данных

Облачные платформы: практический опыт работы с одной из основных облачных платформ (AWS, GCP, Azure) и их ML-сервисами

Обработка естественного языка (NLP): глубокое понимание задач NLP (токенизация, NER, классификация текста, машинный перевод, генерация текста, QA) и современных подходов (LLMs)

Знания:

Языки программирования:

Python (PyTorch, TensorFlow, Scikit-learn, Pandas, NumPy,nltk, spaCy, regex)
SQL (на уровне сложных запросов)

MLOps Инструменты:

Git
Docker (желательно)
MLflow / DVC (Обязательно - хотя бы один для версионирования моделей/данных)
Airflow / Kubeflow Pipelines / Metaflow (Обязательно - опыт работы с пайплайнами)
Инструменты мониторинга (Evidently, WhyLabs, Arize, Prometheus/Grafana)

Прочее:

Linux/Unix (Обязательно)
Jupyter Notebook / JupyterLab
Hugging Face Transformers

Условия:

Работа в крупной IT-компании, дочернее общество ОАО "РЖД"
Интересные проекты всероссийского масштаба
Оформление, отпуска, больничные по ТК, "белая" заработная плата
График работы: понедельник-пятница, 8-ми часовой рабочий день (работа в офисе)
Офис в БЦ "Workki", м. Комсомольская, Красные ворота
ДМС (включая стоматологию)

Откликнуться

Data scientist (ML Engineer)

Похожие вакансии: Москва