2-й Крутицкий переулок 18/3
ML/NLP Engineer (Системы автоматической модерации контента)
Мы разрабатываем комплексный IT-портал, объединяющий маркетплейс, бизнес-аналитику и мессенджер. Мы ищем ML/NLP инженера для создания и масштабирования системы мультиязычной модерации пользовательского контента.
Вам предстоит выстроить гибридный пайплайн модерации, который обеспечит баланс между точностью классификации, задержкой (latency) и стоимостью инфраструктуры при обработке текстов на десятках языков.
О проекте и задачах
Вашей главной целью будет реализация стратегии поэтапного масштабирования языкового покрытия. Архитектура подразумевает маршрутизацию текстов в зависимости от языка, уровня риска и уверенности моделей.
Чем предстоит заниматься:
Разработка гибридной стратегии модерации, сочетающей специализированные моноязычные модели для высокоресурсных языков и мультиязычные модели для базового покрытия.
Исследование, тестирование и внедрение инструментов Language Identification (LID) для точной маршрутизации входного текста.
Выбор и настройка базовых моделей (backbone), таких как RuModernBERT для русского языка и аналогичных решений для английского.
Создание пайплайна модерации критических нарушений с использованием отдельных моноязычных моделей (Single-Task Learning) под каждую категорию.
Обучение сторожевых и классифицирующих моделей на базе мультиязычных архитектур.
Реализация переводного пайплайна (translate-classify) для низкоресурсных языков.
Интеграция систем машинного перевода.
Сбор и подготовка датасетов: перевод существующих корпусов, генерация синтетических данных с помощью LLM.
Поэтапное выделение новых языков (немецкий, французский, испанский и др.) в самостоятельные моноязычные пайплайны на основе аналитики трафика.
Что мы ожидаем от кандидата (Hard Skills)
Ты имеешь аналитический склад ума. У тебя есть исследовательский опыт и ты понимаешь методологию исследовательской работы;
Ты понимаешь основные принципы разработки ML-решений: использование готовых нейросетевых моделей, подготовка датасета, анализ датасетов, анализ архитектуры готовой нейросетевой модели, разработка архитектуры нейросетевой модели, понимаешь что такое domain gap и как с ним бороться;
Ты умеешь объяснять сложные вещи простым языком, не теряя суть;
Ты умеешь писать чистый код на Python, TypeScript;
С математикой на “ТЫ” и не видишь своей жизни без ее применения;
Глубокое понимание архитектур Transformer, опыт работы с моделями семейства BERT, RoBERTa, XLM-R.
Опыт дообучения (fine-tuning) языковых моделей для задач многоклассовой и многозадачной классификации текстов.
Знание специфики обработки мультиязычных данных, понимание эффектов кросс-языкового переноса (zero-shot transfer) и «проклятия мультиязычности».
Опыт интеграции систем машинного перевода (NMT) и работы с промпт-инжинирингом для LLM.
Навыки аугментации данных и генерации синтетических датасетов.
Уверенное владение Python, PyTorch/TensorFlow.
Будет плюсом
Опыт разработки систем антиспама, антифрода или модерации контента (Trust & Safety).
Понимание уязвимостей LLM (safety-tuning refusals) и опыт применения MT-SFT для их преодоления.
Опыт адаптации ML-решений под локальные юридические и культурные нормы различных стран.