Senior Data Scientist (Старший исследователь данных)

Дата размещения вакансии: 04.12.2024
Работодатель: Ртк-Элемент
Уровень зарплаты:
з/п не указана
Город:
Москва
Новослободская улица 23
Требуемый опыт работы:
Более 6 лет
В проект по разработке ПО федерального уровня в сфере здравоохранения, обеспечивающего сбор и анализ данных о застрахованных лицах, оказанной им медицинской помощи, с использованием сервисов генеративного AI, передовых и инновационных технологий, мы ищем опытного Data Scientist для решения сложных задач в области обработки медицинских данных и оптимизации языковых моделей.
Почему это предложение уникально:

  • Возможность решать нетривиальные задачи в области медицинского AI;
  • Работа с собственной медицинской языковой моделью;
  • Доступ к высокопроизводительным вычислительным ресурсам для обучения моделей;
  • Возможность создавать методологии и подходы к решению новых задач;
  • Работа с уникальными медицинскими данными;
  • Перспектива создания решений мирового уровня;
  • Возможность менторства младших специалистов.
Задачи:

  • Разработка и оптимизация пайплайнов обработки медицинских данных;
  • Оптимизация производительности и стоимости инференса LLM;
  • Исследование и внедрение новых методов fine-tuning языковых моделей;
  • Разработка методологий оценки качества работы моделей;
  • Создание инструментов для автоматизации работы с данными;
  • Решение сложных задач в области обработки естественного языка;
  • Постановка задач и менторинг младших Data Scientists;
  • Участие в исследовательских проектах;
  • Разработка технической документации и исследовательских отчетов;
  • Разработка и актуализация методологии, организация процесса управления цифровыми активами, используемыми в ходе работы по созданию и эксплуатации LLM (внутренняя база знаний).
Обязательные требования:

  • Опыт работы в области машинного обучения от 5 лет;
  • Глубокое понимание архитектуры и принципов работы LLM;
  • Опыт оптимизации производительности ML-моделей;
  • Уверенное владение Python и инструментами для работы с данными;
  • Опыт создания пайплайнов обработки данных;
  • Знание методов обработки естественного языка;
  • Опыт работы с большими наборами данных;
  • Навыки проведения исследований и документирования результатов.
Желательные навыки:

  • Опыт работы с медицинскими данными и графами знаний;
  • Знание методов квантизации и дистилляции моделей;
  • Опыт работы с CUDA и оптимизации на уровне GPU;
  • Знание методов векторизации текстов;
  • Опыт работы с RAG (Retrieval Augmented Generation);
  • Понимание принципов MLOps;
  • Опыт менторинга;
  • Научные публикации в области ML/NLP.
Технический стек:

  • Python (PyTorch, TensorFlow)
  • Инструменты для работы с LLM
  • Библиотеки обработки естественного языка
  • Инструменты оптимизации моделей
  • Векторные базы данных
  • Системы управления экспериментами
  • Инструменты визуализации данных
  • Git
Ключевые области ответственности:

  • Исследования и разработка
  • Оптимизация моделей
  • Обработка данных
  • Методология
  • Менторинг
  • Документация
  • Исследовательские проекты
  • Автоматизация процессов
Условия:

  • Аккредитованная IT-компания;
  • Офис в центре Москвы (дистанционный или гибридный формат работы);
  • Комфортная адаптация под руководством опытного Куратора;
  • ДМС после испытательного срока;
  • Работа в профессиональной команде единомышленников;
  • Конкурентная заработная плата;
  • Возможность профессионального роста и развития;
  • Доступ к корпоративной библиотеке AlpinaDidgital;
  • Программа корпоративных предложений и скидок BestBenefits;
  • Доступ к передовым технологиям искусственного интеллекта и вычислительным ресурсам.
Если вы готовы решать сложные задачи в области медицинского искусственного интеллекта - будем рады знакомству!