中文期刊网,快速职称论文发表权威机构

中文期刊网

您的位置:首页 > 论文 > 计算机论文 > 基于专业搜索引擎网络蜘蛛搜索策略研究

基于专业搜索引擎网络蜘蛛搜索策略研究

来源:期刊网  作者: 冯月  导师: 朱清新  时间:2018-04-18 10:58:54  点击:

基于专业搜索引擎网络蜘蛛(Spider)的设计主要包括结构体系设计和搜索策略的设计。关于专业搜索引擎体系结构方面的研究和设计,研究大多从负载平衡和搜索空间划分上给予分析。没有发现从网络蜘蛛的采集对象----网络资源的分布特点上进行分析研究。对于规模相对较小的专业搜索引擎,其网络资源采集器网络蜘蛛(Spider)一般也不可能拥有很大采集规模。因此专业搜索引擎搜索的专业资源的分布情况是Spider体系结构设计必须考虑的问题。对于搜索策略,通用搜索引擎一般使用基于IP地址穷尽式搜索和基于图遍历的广度或深度优先的搜索策略。上述策略既浪费了系统资源又达不到专业资源的搜索目的,显然不能适应专业搜索引擎的搜索需要。目前,相关研究中已经有基于启发式的搜索策略被提出,基于Web结构挖掘和基于内容相似度的计算都被用于专业搜索引擎的搜索策略的设计中。如何用较小的代价来实现搜索策略的优化?这都是专业搜索引擎搜索策略研究需要解决的问题。作为一个理论与实践相结合的研究课题,本文作者主要工作和研究成果包括:1、首先研究了网络蜘蛛搜索算法,归纳总结出目前搜索策略的主要分类,选择了目前国内外典型的搜索算法进行比较,通过大量的实验结果图表展示了几种策略算法各自的优缺点。2、提出采用加入专业领域因素的Page-Rank算法---引进入链分类评价、链接所在网站专业相关度加权的综合链接价值评价策略,作为后面原型系统---分布式智能Spider的策略算法。3、设计实现了基于分布式的智能Spider系统。4、负责编码实现了原型系统中关键的一个子模块----资源采集子模块。 

本文关键词:

收缩
  • 电话咨询

  • 400-801-3439