Разработчик Data Science NLP (Middle)

Дата размещения вакансии: 23.05.2024
Работодатель: Лаборатория Наносемантика
Уровень зарплаты:
от 160000 RUR
Город:
Москва
Верейская улица 29с134
Требуемый опыт работы:
От 3 до 6 лет

«Наносемантика» — ведущий разработчик технологий искусственного интеллекта.

Мы являемся крупнейшим игроком российского рынка ИИ-решений.

Наши компетенции: нейронные сети, голосовые роботы и системы анализа больших данных.

Мы разрабатываем гибридные решения, использующие как нейросетевые архитектуры, так и классические алгоритмы машинного обучения и анализа данных.

В сотрудничестве с компанией Синтелли приглашаем в команду высоко мотивированного и опытного разработчика NLP.

Работать предстоит непосредственно в Синтелли над ключевым продуктом компании — платформой искусственного интеллекта для органической и медицинской химии.

Чем предстоит заниматься:

  • Работать с задачами извлечения кастомных именованных сущностей и различными классификациями текстов;
  • Обеспечением корректной работы всех функций платформы и ее вычислительной логики;
  • Разработкой базовой логики и алгоритмов работы приложения;
  • Необходимые интеграции с внешними сервисами;
  • Тестированием и отладкой приложения и отдельных компонентов;
  • Решением задач для органической и медицинской химии с помощью подходов ИИ;
  • Изучением статей и реализацией архитектур моделей, функций потерь, оптимизаторов по статьям;
  • Построением и отладкой пайплайнов предобработки данных, обучением и инференса моделей;
  • Обучением и скоринг моделей;
  • Сборкой сервисов, использующих моделей.

Мы ожидаем:

  • Опыт работы: 2−3 года;
  • Уверенное владение Python 3;
  • Продвинутый пользователь Linux;
  • Опыт работы с Git;
  • Опыт с Docker и FastAPI;
  • Опыт работы по крайней мере с одной из нейросетевых библиотек глубокого обучения: PyTorch, TensorFlow/Keras;
  • Опыт квантизации моделей;
  • Хорошее представление о задачах NLP, в частности, классификации интентов и извлечения именованных сущностей;
  • Понимание работы механизма внимания, энкодеров/декодеров, sequence2sequence моделей, концепции MLM обучения;
  • Хорошее представление о современных нейросетевых архитектурах (BERT, GPT-3, T5);
  • Опыт обучения кастомных токенайзеров, эмбеддеров, моделей для извлечения сущностей;
  • Базовые навыки работы с библиотеками для обработки текстов (например, nltk, pymystem, pymorphy, spacy, natasha).

Будет плюсом:

  • Высшее образование в области естественных наук (химия, биология, физика);
  • Опыт работы с линейным представлением химических структур SMILES и хемоинформатическими фреймворками (RDKit);
  • Опыт работы в других областях глубокого обучения (CV, графовые нейронные сети).

Мы предлагаем:

Гибридный или полностью удаленный график работы;

  • Приветствуется возможность работы на собственной технике;
  • Оформление по ТК РФ с первого рабочего дня;
  • Полностью официальная заработная плата: оклад по результатам собеседования;
  • ДМС для сотрудников (включая бизнес стоматологию);
  • Испытательный срок — 3 месяца;
  • Соблюдение норм ТК РФ.

Что ждёт интересного:

  • Молодой коллектив, интересная и динамичная работа;
  • Возможность получения льгот (компания имеет it-аккредитацию);
  • Возможности для профессионального и карьерного роста;
  • Возможность посещения профильных мероприятий — конференции и прохождение курсов, необходимые сотруднику для развития.