本文主要是针对中国科技论文在线文献的数据预处理工作,中国科技论文在线首发论文库存在将近4万条数据,面对海量的文献数据,对其进行数据挖掘,理解背后隐藏的关于所发表的论文文献以及作者的本质特征,发掘有价值的知识是必要的。然而对这些数据进行预处理,提高数据的质量,是这一目标实现的前提。论文通过对中国科技论文在线首发论文库的数据进行预处理可以为以后的数据挖掘提供高质量的数据。
本文主要是对属性和属性取值的预处理,对属性的预处理主要是指属性的删除和属性的构造,对属性取值预处理主要是进行数据清理、变换、归约和离散化。数据清理是指对空缺值、不一致数据等进行处理,把原始数据变换成适合数据挖掘的形式,对数据进行数据归约从而减少数据挖掘时的数据量。文中还运用了聚类分析和主成分分析的方法,目的都是为其后的数据挖掘提供高质量的数据。本文通过对中国科技论文在线的原始数据进行预处理得到了适用于数据挖掘的数据,所得到的数据可以直接用于进行中国科技论文在线文献的数据挖掘。
本文关键词: