Москва
НЕМНОГО О ПРОЕКТЕ:
Лаборатория данных Единой информационной системы жилищной сферы (ЕИСЖС) – самостоятельное структурное подразделение, которое занимается процессам загрузки и трансформации данных (ETL + DWH), а также разработкой продуктов и сервисов на основе данных. Цель продуктов – осуществить цифровую трансформацию компании и отрасли жилищного строительства страны.
ПРИМЕРЫ ПРОЕКТОВ:
- Предиктивный анализ ввода объектов строительства на основе данных ЕИСЖС
- CV фотографий хода строительства
- Прогнозирование темпов стройготовности объектов строительства
- Автоматизация обработки документов с помощью ML и др.
В настоящий момент мы находимся в поиске Data Scientist/ML-инженера, который усилит нас в части задач обработки естественного языка (NLP)
ЧЕМ НЕОБХОДИМО ЗАНИМАТЬСЯ:
- Решать амбициозные задачи из области NLP
- Адаптировать предобученные модели к различным задачам (BERT, GPT, LLM)
- Принимать участие в выводе продукта в pipeline
- Принимать технические и архитектурные решения по продукту
- Выстраивать и оптимизировать ML pipeline
НАШИ ПОЖЕЛАНИЮ К СОИСКАТЕЛЮ:
- Опыт работы в NLP не менее года, общий опыт работы в области ML&AI не менее 3-4 лет
- Опыт работы с технологиями BERT, GPT, решением NER-задач
- Уверенное знание Python и Flask framework. Мы делаем не прототипы в Jupyter, а решения, которые встраиваем в production
- Уверенное знание классического ML-стека: регрессии, решающие деревья и т.д.
- Опыт самостоятельной разработки NLP-компонент: библиотеки nltk, pymystem, transformers, Tensorflow
- Опыт работы с Docker (свои решения мы упаковываем в контейнеры и встраиваем в продуктовые pipeline)
БУДЕТ ПЛЮСОМ:
- Знание FastAPI
- Опыт дообучения LLM
- Опыт работы с командной строкой Linux (Bash)
- Участие в соревнованиях/конференциях
- Наличие проектов на github с решением NLP задач
- Авторство статей по темам DS, ML, NLP