Нижний Новгород
улица Родионова 23А
улица Родионова 23А
Компания STM Labs ищет коллегу для участия в проекте крупного российского телеком-оператора!
Задачи:
- Анализ массива размеченных и неразмеченных текстовых данных средствами статистического анализа;
- Расчет метрик по числовым данным массива;
- Расчет метрик по нечисловым данным: уникальные значения, наиболее частые (мода), инвариантные соотношения и пр.
- Группировка текстовых данных на уровне БД по сущностям/наборам сущностей;
- Поиск и определение корреляций данных/групп данных;
- Предобработка дата сета (сглаживание экстремальных значений, заполнение пустот, аугментация);
- Определение и расчет вторичных и специфических метрик для проведения статистического анализа;
- Поиск и анализ аномальных значений, причинно-следственных связей, формирование аналитических записок на основании проведенного анализа;
- Построение дашбордов для визуализации данных: гистограммы, box plots средствами Grafana, BI, Python;
- Прогнозное моделирование текстовой информации, определение инструкций для аннотаторов;
- Находить статистически обоснованные взаимосвязи, генерировать и проверять гипотезы в текстовых данных;
- Придумывать метрики для оценки качества аннотирования и реферирования текстов и обосновывать их необходимость;
- Создание решений на основе алгоритмов NLP.
Основные требования:
- Глубокие знания и опыт практического применения моделей и методов в области NLP;
- Знания и опыт практического применения методов классического машинного обучения;
- Знания и опыт практического применения методов глубокого обучения;
- Знания и опыт практического применения многомерного статистического анализа, выявления аномалий, корреляций данных;
- Знания и опыт работы с большими наборами данных;
- Опыт работы с LLM: fine tune, prompt-инжиниринг;
- Знание и практическое применение инструментов и методов визуализации данных средствами: BI (Apache Superset), Python/dash: histograms, box plots и др.;
- Знание и опыт практического применения библиотек Python: pandas, NumPy, Matplotlib, Scikit-learn, Pytorch/Tensorflow, Spark ML, transformers, langchain;
- Понимание механизма работы Transfromer-based моделей (embeddings, attention), их типы (например, BERT, GPT, T5) и для каких задач используются;
- Опытный пользователь SQL: группировки, оконные агрегации, расчет статистических метрик, создание таблиц/view;
- Английский язык на уровне технического чтения.
- Преимуществом будет знакомство с use cases: retrieval-augmented generation, chatbots, summarization
Мы предлагаем:
- Трудоустройство согласно Трудовому Кодексу РФ в аккредитованную ИТ-компанию;
- Гибкий рабочий график;
- Дополнительное медицинское страхование, включая стоматологию;
- Компенсация 50% стоимости языковых курсов, фитнес-абонементов и других спортивных программ, а также участие в регулярных корпоративных тренировках по футболу и волейболу;
- Работа в комфортабельном офисе с зонами отдыха;
- Участие в регулярных корпоративных мероприятиях и спортивных инициативах.