Олимпийский парк, Международная улица 2/1
ОЦРВ - часть одной из самых стабильных и масштабных структур в стране – ОАО «РЖД». Нас уже более 1200 человек. Вместе мы работаем над цифровизацией ж/д отрасли.
Сейчас мы находимся в поиске Руководителя группы обработки естественного языка в нашу R&D лабораторию «Сириус». Лаборатория занимается реализацией проектов в области ж/д транспорта с использованием технологий компьютерного зрения, обработки естественного языка и предиктивной аналитики.
Проекты связаны с безопасностью и эффективностью перевозочного процесса, её повышением и обеспечением. Проекты масштабные, нацелены на тиражируемость на всю сеть железных дорог.
Обязанности:
- Проведение исследований в обработке естественного языка с применением технологий больших языковых моделей;
- Разработка прикладных инструментов в области интеллектуальных средств обработки текстовой информации;
- Генерация идей и гипотез для проведения исследований и обоснование их реализуемости и практической значимости;
- Лидирование команды в части выполнения технических задач по проектам;
- Постановка и распределение задач внутри команды, контроль сроков и результатов;
- Подготовка публикаций и выступление на профильных конференциях;
- Участие в мероприятиях (хакатонах, соревнованиях и тп) в качестве технического эксперта.
Требования:
- Глубокое понимание архитектур языковых моделей: Знание различий, преимуществ и недостатков энкодеров (BERT, RoBERTa, DeBERTa), декодеров (GPT, Llama, Mistral) и архитектур encoder-decoder (T5, и др);
- Знание современных LLM: Опыт работы с, открытыми моделями (Llama, Qwen, DeepSeek и др) и их спецификой;
- Понимание и реализация RAG (Retrieval-Augmented Generation): Не просто использование, а глубокое понимание каждого компонента: чанки, embedding, векторные базы данных, ранжирование (re-ranking), стратегии сжатия контекста и т.д.;
- Практический опыт различных стратегий дообучения (fine-tuning) и обучения с нуля (pre-training): Знание специфики обучения трансформеров. Опыт не только использования готовых пайплайнов, но и написания кастомных циклов обучения, создания собственных моделей;
- Python (PyTorch, TensorFlow): Владение на уровне уверенного профессионала (не только для использования основных ML библиотек, но и глубокое понимание ООП, асинхронного программирования).
- Data Engineering: Опыт построения ETL/ELT пайплайнов.
- Векторные базы данных: практический опыт с одной или несколькими: Qdrant, Chroma. Понимание особенностей индексов (HNSW) и метрик поиска.
- Хранилища данных: Опыт работы с большими объемами данных (S3, ClickHouse).
Мы предлагаем:
- Комфортный офис в Сириусе;
- Официальное оформление с первого дня работы в компании;
- Заботу о здоровье. Оформим полис ДМС со стоматологией. Скидки на ДМС для родственников;
- Годовую премию;
- Индексацию заработной платы;
- Доступ в спортивные залы парка Сириус (волейбол, баскетбол, футбол, настольный теннис);
- Дополнительные дни к оплачиваемому отпуску;
- Участие в самых интересных и масштабных проектах в отрасли;
- Мы являемся аккредитованной ИТ Компанией.