Data scientist

Дата размещения вакансии: 13.09.2024
Работодатель: Data World
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
От 3 до 6 лет

Мы создаем ПО для ФинТеха и приглашаем ИТ специалистов на наш внешний высокотехнологичный проект для Сбербанка.

На старте еще один интересный проект.

Мы – быстроразвивающаяся и очень дружная команда, которая занимается обеспечением безопасности данных в группе компаний Сбер.
В частности, сканированием баз данных на наличие персональных данных с применением комбинированного подхода из ML-моделей и стандартных программных средств, обезличиванием этих данных и подтверждением безопасного статуса исследуемой базы данных.

Наши задачи:
• Решаем вопросы определения чувствительных данных, ищем закономерности в структурах данных, проверяем гипотезы;
• Готовим данные для всех этапов обучения моделей (в т.ч. LLM);
• Организуем всю разметку для своих моделей;
• Проводим различные эксперименты для обучения моделей;
• Проектируем и реализуем новые решения на базе ML/LLM для решения поставленных задач

Что предстоит делать:

  • Выстраивание стратегии по DS-части продуктов, развитие архитектуры ML-модели продуктов

  • Определение требований к перечню, объему и качеству данных, необходимых для решения бизнес-задач

  • Тестирование, анализ и ранжирование сильных и слабых сторон различных моделей и конкретного решения

  • Оценка как полученное решение достигает поставленных целей

  • Участие в разработке решения на основе GigaChat, LLAMA2

  • Организация процесса мониторинга качества LLM

  • Взаимодействие с другими участниками команды для совместной работы (проверки гипотез, исследований, внедрения)

  • Внедрение успешных гипотез/моделей в промышленную эксплуатацию

  • Следить за последними исследованиями и инновациями в области языковых моделей и применять их на практике

Мы ждем от вас:

  • Опыт работы в области DS от 3-х лет

  • Знания в области теории вероятностей, статистики, оптимизации, численных методов

  • Хорошие навыки программирования, знание Python, SQL

  • Свободное владение основными DS библиотеками на Python, опыт применения алгоритмов машинного обучения, понимание их преимуществ, недостатков и ограничений

  • Знание методов классического NLP, навыки Prompt Engineering

  • Опыт работы с LLM-моделями (LLama, ChatGPT, GigaChat) и библиотеками LLM разработки LangChain, GigaChain

  • Уметь адаптировать в in-house формате доступные на рынке open source LLM-модели под задачи компании

Почему стоит работать с нами:

  • оформление в соответствии с ТК РФ в компанию подрядчика
  • формат работы гибрид/удаленка
  • входим в список IT лицензированных аккредитованных компаний
  • уровень дохода зависит от уровня кандидата, обсуждается индивидуально
  • предоставление техники
  • ДМС+стоматология, изучение английского языка
  • корпоративные активности: профессиональные митапы, изучение английского, квизы
  • прокачка скилов в экспертном IT пространстве