ML/NLP Engineer (Системы автоматической модерации контента)

Дата размещения вакансии: 21.06.2026
Работодатель: Группа компаний «Триумф»
Уровень зарплаты:
з/п не указана
Город:
Москва
2-й Крутицкий переулок 18/3
Требуемый опыт работы:
От 1 года до 3 лет

ML/NLP Engineer (Системы автоматической модерации контента)

Мы разрабатываем комплексный IT-портал, объединяющий маркетплейс, бизнес-аналитику и мессенджер. Мы ищем ML/NLP инженера для создания и масштабирования системы мультиязычной модерации пользовательского контента.

Вам предстоит выстроить гибридный пайплайн модерации, который обеспечит баланс между точностью классификации, задержкой (latency) и стоимостью инфраструктуры при обработке текстов на десятках языков.

О проекте и задачах

Вашей главной целью будет реализация стратегии поэтапного масштабирования языкового покрытия. Архитектура подразумевает маршрутизацию текстов в зависимости от языка, уровня риска и уверенности моделей.

Чем предстоит заниматься:

Разработка гибридной стратегии модерации, сочетающей специализированные моноязычные модели для высокоресурсных языков и мультиязычные модели для базового покрытия.

Исследование, тестирование и внедрение инструментов Language Identification (LID) для точной маршрутизации входного текста.

Выбор и настройка базовых моделей (backbone), таких как RuModernBERT для русского языка и аналогичных решений для английского.

Создание пайплайна модерации критических нарушений с использованием отдельных моноязычных моделей (Single-Task Learning) под каждую категорию.

Обучение сторожевых и классифицирующих моделей на базе мультиязычных архитектур.

Реализация переводного пайплайна (translate-classify) для низкоресурсных языков.

Интеграция систем машинного перевода.

Сбор и подготовка датасетов: перевод существующих корпусов, генерация синтетических данных с помощью LLM.

Поэтапное выделение новых языков (немецкий, французский, испанский и др.) в самостоятельные моноязычные пайплайны на основе аналитики трафика.

Что мы ожидаем от кандидата (Hard Skills)

Ты имеешь аналитический склад ума. У тебя есть исследовательский опыт и ты понимаешь методологию исследовательской работы;

Ты понимаешь основные принципы разработки ML-решений: использование готовых нейросетевых моделей, подготовка датасета, анализ датасетов, анализ архитектуры готовой нейросетевой модели, разработка архитектуры нейросетевой модели, понимаешь что такое domain gap и как с ним бороться;

Ты умеешь объяснять сложные вещи простым языком, не теряя суть;

Ты умеешь писать чистый код на Python, TypeScript;

С математикой на “ТЫ” и не видишь своей жизни без ее применения;

Глубокое понимание архитектур Transformer, опыт работы с моделями семейства BERT, RoBERTa, XLM-R.

Опыт дообучения (fine-tuning) языковых моделей для задач многоклассовой и многозадачной классификации текстов.

Знание специфики обработки мультиязычных данных, понимание эффектов кросс-языкового переноса (zero-shot transfer) и «проклятия мультиязычности».

Опыт интеграции систем машинного перевода (NMT) и работы с промпт-инжинирингом для LLM.

Навыки аугментации данных и генерации синтетических датасетов.

Уверенное владение Python, PyTorch/TensorFlow.

Будет плюсом

Опыт разработки систем антиспама, антифрода или модерации контента (Trust & Safety).

Понимание уязвимостей LLM (safety-tuning refusals) и опыт применения MT-SFT для их преодоления.

Опыт адаптации ML-решений под локальные юридические и культурные нормы различных стран.