проспект Гагарина 50к9
Задачи:
• разработка новых и поддержка существующих парсеров для данных в различных форматах (xml, json, xlsx, html и др.), коннекторов к базам данных и сторонним API, нормализующих данные и распределяющих их по таблицам внутренней базы данных продукта;
• написание логики и эвристик нормализации и валидации данных (номера документов, номера телефонов, названия, ФИО и др.);
• анализ данных с помощью NoSQL БД Clickhouse на предмет наличия некорректных записей;
• разработка пайплайнов обработки данных в Clickhouse;
• разработка вспомогательных RESTful сервисов;
• написание ролей Ansible и Dockerfile для компонентов продукта;
• поддержка существующих модулей для Ansible;
Требования:
• хорошие знания языка Python (семантика присваивания, особенности многопоточности и GIL, анонимные функции, ООП, common practices, генераторы, итераторы, менеджеры контекста ...);
• общее представление о работе с SQL базами данных (clickhouse, postgresql, sqlserver...);
• опыт написания unit-тестов;
• навыки работы с ОС Linux;
Будет плюсом:
• навыки работы с сетевыми библиотеками (httplib, requests, urllib,...);
• навыки работы с парсерами (lxml, xml.etree, json,...);
• опыт разработки и использования REST API;
• умение использовать docker для сборки образов и разворачивания контейнеров;
• знания bash.