О компании: Мы занимаемся разработкой инновационных IT-решений для автоматизации обработки технической документации и анализа данных. Сейчас мы ищем специалиста, который поможет реализовать проект по анализу схем и генерации метаданных для связывания элементов на изображении с текстовой информацией.
Обязанности:
-
Разработка скриптов для анализа изображений и извлечения данных из PDF-файлов.
-
Интеграция OCR-инструментов для извлечения текстовых данных из изображений (например, из технических схем).
-
Генерация метаданных, связывающих элементы изображения с их координатами и текстовым описанием.
-
Разработка API для предоставления обработанных данных клиентской стороне.
-
Тестирование и оптимизация алгоритмов для обеспечения высокой точности и производительности.
Требования:
-
Уверенное владение Python.
-
Опыт работы с библиотеками для обработки изображений (OpenCV, PIL).
-
Опыт работы с OCR-инструментами (PyTesseract или аналоги).
-
Знание принципов работы с PDF (PyPDF2, pdfplumber).
-
Опыт разработки REST API с использованием FastAPI, Tornado, Flask или др.
-
Понимание базовых принципов машинного обучения и опыт работы с фреймворками (PyTorch, TensorFlow) будет плюсом.
-
Умение работать с форматами данных (JSON).
Желательные навыки:
-
Опыт обработки и анализа технической документации.
-
Знание основ работы с Git.
-
Опыт проектирования и администрирования баз данных.
-
Навыки написания автоматизированных тестов.
-
Опыт работы с проектами, связанными с аналитикой данных.
Что мы предлагаем:
-
Удалённая работа с гибким графиком.
-
Участие в инновационном проекте с использованием современных технологий.
-
Возможность профессионального роста и обучения.
-
Конкурентоспособная заработная плата.