ML Engineer

Дата размещения вакансии: 21.11.2024
Работодатель: STM Labs
Уровень зарплаты:
з/п не указана
Город:
Нижний Новгород
улица Родионова 23А
Требуемый опыт работы:
От 3 до 6 лет

Компания STM Labs ищет коллегу для участия в проекте крупного российского телеком-оператора!

Задачи:

  • Анализ массива размеченных и неразмеченных текстовых данных средствами статистического анализа;
  • Расчет метрик по числовым данным массива;
  • Расчет метрик по нечисловым данным: уникальные значения, наиболее частые (мода), инвариантные соотношения и пр.
  • Группировка текстовых данных на уровне БД по сущностям/наборам сущностей;
  • Поиск и определение корреляций данных/групп данных;
  • Предобработка дата сета (сглаживание экстремальных значений, заполнение пустот, аугментация);
  • Определение и расчет вторичных и специфических метрик для проведения статистического анализа;
  • Поиск и анализ аномальных значений, причинно-следственных связей, формирование аналитических записок на основании проведенного анализа;
  • Построение дашбордов для визуализации данных: гистограммы, box plots средствами Grafana, BI, Python;
  • Прогнозное моделирование текстовой информации, определение инструкций для аннотаторов;
  • Находить статистически обоснованные взаимосвязи, генерировать и проверять гипотезы в текстовых данных;
  • Придумывать метрики для оценки качества аннотирования и реферирования текстов и обосновывать их необходимость;
  • Создание решений на основе алгоритмов NLP.

Основные требования:

  • Глубокие знания и опыт практического применения моделей и методов в области NLP;
  • Знания и опыт практического применения методов классического машинного обучения;
  • Знания и опыт практического применения методов глубокого обучения;
  • Знания и опыт практического применения многомерного статистического анализа, выявления аномалий, корреляций данных;
  • Знания и опыт работы с большими наборами данных;
  • Опыт работы с LLM: fine tune, prompt-инжиниринг;
  • Знание и практическое применение инструментов и методов визуализации данных средствами: BI (Apache Superset), Python/dash: histograms, box plots и др.;
  • Знание и опыт практического применения библиотек Python: pandas, NumPy, Matplotlib, Scikit-learn, Pytorch/Tensorflow, Spark ML, transformers, langchain;
  • Понимание механизма работы Transfromer-based моделей (embeddings, attention), их типы (например, BERT, GPT, T5) и для каких задач используются;
  • Опытный пользователь SQL: группировки, оконные агрегации, расчет статистических метрик, создание таблиц/view;
  • Английский язык на уровне технического чтения.
  • Преимуществом будет знакомство с use cases: retrieval-augmented generation, chatbots, summarization

Мы предлагаем:

  • Трудоустройство согласно Трудовому Кодексу РФ в аккредитованную ИТ-компанию;
  • Гибкий рабочий график;
  • Дополнительное медицинское страхование, включая стоматологию;
  • Компенсация 50% стоимости языковых курсов, фитнес-абонементов и других спортивных программ, а также участие в регулярных корпоративных тренировках по футболу и волейболу;
  • Работа в комфортабельном офисе с зонами отдыха;
  • Участие в регулярных корпоративных мероприятиях и спортивных инициативах.