与数据采集相关的专利申请 ,有以下三类:基于传感器技术的数据采集,所占比例是68%,基于互联网信息采集技术的数据采集,占26%,以及基于大数据的存储模型或索引结构的数据采集,占6%。
与数据清洗相关的专利申请 ,其大致可以为两类 :基于既定清洗规则的数据清洗占22%,基于分布式计算关联分析的数据清洗占78%。
与数据关联分析所针对的源数据种类多样,与数据关联分析或数据挖掘相关的专利申请的类型也相对较多。其中,所占比重最大的是通用数据关联分 析、电力电网数据关联分析相关的专利申请,两者比例均为30%;其次针对用户行为数据进行关联分析的申请所占比例为 12%;针对电子政务、商务或企业管理等方面的业务管理数据所进行的数据关联分析,其比例约为 7%;针对互联网公开信息或媒体数据所进行的数据关联分析,其比例约为 9%;针对工业数据或设备数据所进行的数据关联分析,其比例约为 4%;针对其他种类数据所进行的数据关联分析,其比例约为 8%。