中文期刊网,快速职称论文发表权威机构

中文期刊网

您的位置:首页 > 论文 > 计算机论文 > 智能信息采集搜索策略研究

智能信息采集搜索策略研究

来源:期刊网  作者: 张玲  导师: 林亚平  时间:2018-04-19 18:25:53  点击:

   近年来,如何在Web海量信息中尽可能多地获取与用户兴趣相关的页面是搜索引擎领域研究的热点之一。本文通过改善网络蜘蛛的自适应性来提高搜索效率,对基于主题的网络蜘蛛的搜索策略进行较为深入的研究。
    本文首先介绍了现阶段网络蜘蛛的研究进展,在分析和比较现有基于主题的网络蜘蛛搜索策略的优缺点的基础上,探讨了如何提高网络蜘蛛的自适应性和预测链接价值的准确性,以此来提高搜索的效率。 为了提高网络蜘蛛的自适应性,本文提出一种基于综合价值的搜索算法,通过结合链接的立即价值和未来价值,分析这两者相应的变化趋势来判断待搜索页面集与主题的相关性,依此动态调整这两种价值的权值关系,产生适合实际搜索情况的最优搜索策略。实验结果表明,新算法在整体性能上明显优于采用单一链接评价方法的网络蜘蛛搜索算法。 为了提高链接价值预测的准确性,本文针对传统的PageRank算法存在的主题漂移现象,提出基于主题分块的PageRank算法,利用信息抽取的方法对网页建立DOM层次树,按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并根据已访问的链接对块进行相关性反馈。实验结果表明新的算法能较好地改进搜索结果的精确度。
    本文还提出一种基于遗传算法的网络蜘蛛搜索策略,将遗传算法引入网络蜘蛛搜索策略,将父页面,链接文本,链接的URL以及兄弟链接等信息的不同组合作为不同的基因序列,通过交叉、变异操作使web信息的组合方式可以随着web资源的实际情况而动态变动,得到符合web情况的较优搜索策略。实验结果表明,新的算法具有较高的搜索效率。 最后,本文利用提出的算法和相关技术,实现了一个可采用多种搜索策略的计算机相关论文专业搜索引擎网络蜘蛛系统原型。

本文关键词:

收缩
  • 电话咨询

  • 400-801-3439