经教育部批准,科技发展中心主办了“中国科技论文在线”,对于学者普遍提出的发表论文困难以及交流学术渠道窄的问题而建立的科技论文发表平台,网站采用“先发布、后评审”的方式,能够快速、高效的将科研成果转化为现实生产力。通过对数据抽取技术的研究,本文基于HTML的Web信息提取方式,从半结构化的“中国科技论文在线”的HTML网页中提取出论文信息以及专家和用户对此论文做出的评价信息,存入数据库中以供本文进行论文质量评价研究。通过对传统科技论文质量评价方式和网络科技论文质量评价方式的比较分析,本文集中各种评价方式的优点,结合“中国科技论文在线”网站中的数据,设计了一种适应“中国科技论文在线”的论文质量评价方式,综合考虑专家意见(即本文中的综合评价)、收录情况、作者单位、下载次数、收藏次数、推荐次数、读者推荐和评论次数等指标参数值在论文质量评价方面所占的权重,采用e指数函数定义权重,运用最优梯度下降法使目标的计算值与期望值的误差最小来迭代优选权重,应用迭代模型产生的最优权重向量和线性求和模型来计算论文质量评价值。
本文以“核科学技术”学科的论文作为样本数据,通过迭代模型产生的最优权重向量和线性求和模型来计算论文评价值并进行误差分析,证实本文设计的适合于“中国科技论文在线”的论文质量评价方式是可行的。文章最后根据论文质量评价结果,对“中国科技论文在线”网站的2009年10月以前的数据进行学科热点分析、各高校高质量论文比例、高低质量论文比例及发展趋势等统计分析,其统计结果同时也验证了本文设计的论文质量评价方式的正确性。
本文关键词: