Что предстоит делать:
— Анализировать источники данных: определять структуру, полноту, качество данных, применимость для решаемых задач; изучать описание источников данных;
— Формулировать гипотезы о потенциале использования данных в решаемых командой задачах и проводить их количественную оценку, видеть за названиями и значениями показателей их бизнес-смысл; формулировать и реализовывать алгоритм определения новых показателей на данных анализируемого источника;
— Проектировать витрины данных для целей моделирования, аналитики и отчетности;
— Готовить документацию к витринам данных;
— Собирать, обрабатывать и документировать требования от других участников; предоставлять экспертную поддержку другим участникам;
Наши ожидания от кандидата:
— Высшее техническое, физико-математическое или экономическое образование;
— Знание английского для работы с технической литературой;
— Знание математической статистики;
— Владение Python для анализа/обработки данных;
— Знание SQL;
Будет плюсом:
— Знание теории реляционных СУБД;
— Навыки работы с Git, BitBucket, Confluence, Jira;
— Опыт работы со стеком технологий BigData (Hadoop, Spark, Hive/Impala);
— Опыт работы с AirFlow;