随着信息化的快速发展,人类的知识总量也在急剧增加,尤其是代表人类知识前沿的科技文献正在以每年6%-8%的速率增长。这就使得论文检索难度大大增加。科研人员为了找到自己需要的论文,往往浪费了大量的时间。虽然搜索引擎在很大程度上减轻了人们搜索信息的工作,但是它缺少了对用户个性化的考虑,有时很难从搜索结果中找到自己感兴趣的内容。
本文首先介绍了论文的理论基础,包括推荐系统、社会网络、科技论文推荐的质量等概念的界定和数据挖掘理论,借鉴相似度分析方法,提出了一种论文相似度的计算方法,借鉴推荐系统在电子商务领域的成功应用,将推荐系统中的理论方法扩展到科技论文检索领域,帮助人们快速定位所需的论文资源。然后,论文通过对获得的数据进行统计分析,初步建立了较为综合的科技论文推荐系统。本文利用网络爬虫技术实现了多种期刊、会议的论文资源的集中和同步联网更新;完成了检索结果按照被引用次数、文章来源和发表时间等多样化呈现;实现了论文相似度算法,结合用户兴趣给出相似论文的推荐;构建了科技论文推荐系统用户合作网络,并对其进行社区挖掘;利用Graphic绘图、JavaScript、Flex等技术实现了社区结构图和用户合作网络的绘制和动态展示。
本文关键词: