О команде:
Наша команда состоит из 10 инженеров компьютерного зрения, распределенных по всей России, с основными ячейками в Новосибирске, Томске и Санкт-Петербурге. Основной продукт команды - сервис по распознаванию документов для нужд финтеха.
Основные задачи команды:
- Разработка и поддержка систем классификации, сегментации, оценки качества и OCR на базе нейронных сетей.
- Создание и ускорение моделей для развертывания на серверах и запуска на мобильных устройствах.
- Развитие инфраструктуры и анализ метрик на бою.
- Непосредственное участие в генерации идей для улучшения сервисов вместе с бизнесом.
Сейчас мы активно ищем людей, которые помогут автоматизировать пайплайн обучения моделей и обработки данных для ускорения процессов в команде. Помимо инфраструктурного развития мы также стремимся технически развивать и оптимизировать наши сервисы, внедряя новые подходы и инструменты.
Чем предстоит заниматься
- Выстраивать, оптимизировать и автоматизировать пайплайны обучения и тестирования моделей компьютерного зрения.
- Разрабатывать инструменты для автоматического сбора предобработки и аннотирования данных.
- Оптимизировать процесс взаимодействия с командой разметки для улучшения качества данных
- Создавать новые и развивать текущие внутренние инструменты для аналитики работоспособности сервиса.
- Заниматься ускорением и улучшением сервиса распознавания документов.
Требования
- Опыт работы: от 2 лет в качестве ML Engineer или в схожей области.
- Знание Python: Профессиональное владение языком Python. Это включает:
- Глубокое понимание синтаксиса, семантики и базовых структур данных языка (списки, словари, множества).
- Знание и умение применять парадигмы ООП: классы, объекты, наследование, полиморфизм.
- Опыт работы с модулями и пакетами, понимание импорта и пространства имен.
- Знание базовых алгоритмов и структур данных: сортировка, поиск, деревья, графы.
- Умение работать с менеджером зависимостей Poetry: создание виртуальных сред, управление пакетами, создание spec-файла.
- Работа с данными и анализ:
- NumPy: умение работать с массивами данных, в частности: создание и манипуляция, изменение шейпа, индексирование и срезы, базовые алгебраические операции, каст данных в разные типы.
- Понимание основных статистических показателей: среднее значение, медиана, стандартное отклонение, квантили.
- Опыт работы с метриками: умение рассчитывать метрики, релевантные для задач машинного обучения (точность, полнота, F1-score, AUC).
- Pandas для анализа данных: умение сортировать, группировать, фильтровать и создавать сводные таблицы на основании таблиц.
- Визуализация данных: библиотеки визуализации (matplotlib, seaborn) для построения графиков и диаграмм по результатам анализа.
- PyTorch:
- Глубокое понимание фреймворка PyTorch и его основных компонентов: тензоры, вычисления градиентов, функции активации, операции с тензорами, оптимайзеры и даталоудеры.
- Знание задач компьютерного зрения и основных бейзлайнов: object detection, image classification, image segmentation, OCR
- Умение самостоятельно писать модули с нейронными сетями: слои, функции активации, архитектуры сетей.
- Умение создавать собственные классы датасетов:
- Написание классов для работы с собственными типами данных.
- Использование различных семплеров (WeightedRandomSampler, RandomSampler etc.).
- Computer Vision:
- Библиотеки openCV и PIL для работы с изображениями
- Умение применять аффинные преобразования к изображениям (повороты, масштабирование, сдвиги)
- Опыт работы с фильтрами для обработки изображений (blur, sharpen, edge detection)
Будет плюсом
- Опыт использования фреймворка PyTorch-Lightning для обучения моделей PyTorch.
- Опыт работы с Apache Airflow для автоматизации и управления потоками данных.
- Знание платформы LabelStudio для аннотации данных.
- Опыт обучения и портирования нейронных сетей на мобильных устройствах.
- Знание принципов контейнеризации и умение создавать Docker-образы для моделей машинного обучения.
Мы предлагаем:
- Понятная траектория роста (performance review, карьерные консультации, индивидуальная карта развития и т.д.)
- Обучение и развитие за счёт ресурсов компании (Учебный центр, корпоративная библиотека, оплата внешнего обучения)
- Социальный пакет (ДМС с первого рабочего дня, скидки от партнёров, детская программа, поддержка спорта и т.д.)
- Насыщенная корпоративная жизнь (радио, подкасты, кибертурнир, собственные мероприятия и участие в крупных событиях отрасли)
- Возможность быть наставником, автором корпоративного блога, спикером – каждый выбирает то, что подходит именно ему
- Официальное трудоустройство с первого дня, полностью белая зарплата.
Рассматриваем резюме от кандидатов из любого региона. Можно работать удаленно или из регионального офиса компании.