Специалист по компьютерному зрению в команду распознавания документов

Дата размещения вакансии: 12.11.2024
Работодатель: МКК Корона
Уровень зарплаты:
з/п не указана
Город:
Новосибирск
Требуемый опыт работы:
От 1 года до 3 лет

О команде:

Наша команда состоит из 10 инженеров компьютерного зрения, распределенных по всей России, с основными ячейками в Новосибирске, Томске и Санкт-Петербурге. Основной продукт команды - сервис по распознаванию документов для нужд финтеха.

Основные задачи команды:

  • Разработка и поддержка систем классификации, сегментации, оценки качества и OCR на базе нейронных сетей.
  • Создание и ускорение моделей для развертывания на серверах и запуска на мобильных устройствах.
  • Развитие инфраструктуры и анализ метрик на бою.
  • Непосредственное участие в генерации идей для улучшения сервисов вместе с бизнесом.

Сейчас мы активно ищем людей, которые помогут автоматизировать пайплайн обучения моделей и обработки данных для ускорения процессов в команде. Помимо инфраструктурного развития мы также стремимся технически развивать и оптимизировать наши сервисы, внедряя новые подходы и инструменты.

Чем предстоит заниматься

  • Выстраивать, оптимизировать и автоматизировать пайплайны обучения и тестирования моделей компьютерного зрения.
  • Разрабатывать инструменты для автоматического сбора предобработки и аннотирования данных.
  • Оптимизировать процесс взаимодействия с командой разметки для улучшения качества данных
  • Создавать новые и развивать текущие внутренние инструменты для аналитики работоспособности сервиса.
  • Заниматься ускорением и улучшением сервиса распознавания документов.

Требования

  • Опыт работы: от 2 лет в качестве ML Engineer или в схожей области.
  • Знание Python: Профессиональное владение языком Python. Это включает:
    • Глубокое понимание синтаксиса, семантики и базовых структур данных языка (списки, словари, множества).
    • Знание и умение применять парадигмы ООП: классы, объекты, наследование, полиморфизм.
    • Опыт работы с модулями и пакетами, понимание импорта и пространства имен.
    • Знание базовых алгоритмов и структур данных: сортировка, поиск, деревья, графы.
    • Умение работать с менеджером зависимостей Poetry: создание виртуальных сред, управление пакетами, создание spec-файла.
  • Работа с данными и анализ:
    • NumPy: умение работать с массивами данных, в частности: создание и манипуляция, изменение шейпа, индексирование и срезы, базовые алгебраические операции, каст данных в разные типы.
    • Понимание основных статистических показателей: среднее значение, медиана, стандартное отклонение, квантили.
    • Опыт работы с метриками: умение рассчитывать метрики, релевантные для задач машинного обучения (точность, полнота, F1-score, AUC).
    • Pandas для анализа данных: умение сортировать, группировать, фильтровать и создавать сводные таблицы на основании таблиц.
    • Визуализация данных: библиотеки визуализации (matplotlib, seaborn) для построения графиков и диаграмм по результатам анализа.
  • PyTorch:
    • Глубокое понимание фреймворка PyTorch и его основных компонентов: тензоры, вычисления градиентов, функции активации, операции с тензорами, оптимайзеры и даталоудеры.
    • Знание задач компьютерного зрения и основных бейзлайнов: object detection, image classification, image segmentation, OCR
    • Умение самостоятельно писать модули с нейронными сетями: слои, функции активации, архитектуры сетей.
    • Умение создавать собственные классы датасетов:
      • Написание классов для работы с собственными типами данных.
      • Использование различных семплеров (WeightedRandomSampler, RandomSampler etc.).
  • Computer Vision:
    • Библиотеки openCV и PIL для работы с изображениями
    • Умение применять аффинные преобразования к изображениям (повороты, масштабирование, сдвиги)
    • Опыт работы с фильтрами для обработки изображений (blur, sharpen, edge detection)

Будет плюсом

  • Опыт использования фреймворка PyTorch-Lightning для обучения моделей PyTorch.
  • Опыт работы с Apache Airflow для автоматизации и управления потоками данных.
  • Знание платформы LabelStudio для аннотации данных.
  • Опыт обучения и портирования нейронных сетей на мобильных устройствах.
  • Знание принципов контейнеризации и умение создавать Docker-образы для моделей машинного обучения.

Мы предлагаем:

  • Понятная траектория роста (performance review, карьерные консультации, индивидуальная карта развития и т.д.)
  • Обучение и развитие за счёт ресурсов компании (Учебный центр, корпоративная библиотека, оплата внешнего обучения)
  • Социальный пакет (ДМС с первого рабочего дня, скидки от партнёров, детская программа, поддержка спорта и т.д.)
  • Насыщенная корпоративная жизнь (радио, подкасты, кибертурнир, собственные мероприятия и участие в крупных событиях отрасли)
  • Возможность быть наставником, автором корпоративного блога, спикером – каждый выбирает то, что подходит именно ему
  • Официальное трудоустройство с первого дня, полностью белая зарплата.

Рассматриваем резюме от кандидатов из любого региона. Можно работать удаленно или из регионального офиса компании.