随着互联网的快速发展,农业知识资源也在急剧增长,但农业用户在海量复杂的数据中获得农业信息资源效率并不高。通用搜索引擎无法满足农业用户在信息检索时对查准率的要求,现有的农业搜索引擎存在缺乏公信的农业服务平台、区域性和实效性不高等问题。针对这些问题,本研究以西部旱区农业物联信息平台为公信的农业服务平台来开展针对西北干旱地区的农业垂直搜索引擎相关研究。
主要研究内容及结论如下:(1)基于文献的农业领域本体构建方法研究。为了提高领域本体构建的自动性,减少对领域专家的依赖性,使用Web数据抽取技术获取农业文献,通过对文献分词和清洗,自动提取领域概念,并用关联分析和改进的层次聚类发现领域概念间关系,构建农业领域本体。通过实验验证,该方法提高了领域本体构建的自动性,同时可以保证领域概念间关系聚类效果和领域本体构建效果。(2)基于本体的旱区农业垂直搜索引擎研究。为了提高旱区农业信息检索的准确率,设计并实现构建基于本体的旱区农业垂直搜索引擎。首先,进行基于本体的信息采集和过滤,采用主题蜘蛛和本体结合的方法按照链接过滤、信息获取、页面分析和主题相关性判定四个部分从网络中采集并过滤旱区农业信息,并将相关网页按照倒排索引策略建立索引。其次,进行基于本体的信息检索,采用查询扩展技术结合农业领域本体对用户的检索进行上位、平行和下位三种模式的查询扩展,依据相关度的高低对结果排序,并根据本体的上下位关系向用户推荐相关词。实验证明,基于本体的旱区农业垂直搜索引擎可以提高农业信息检索的查准率,优化检索结果。(3)构建基于本体的旱区农业垂直搜索引擎系统平台。为了方便对农业领域本体和基于本体的旱区农业垂直搜索引擎使用和管理,基于C/S+B/S模式搭建系统平台,平台通过Web信息抽取技术获取旱区农业相关的文章,并完成中文分词清洗、关联分析和聚类分析等工作,构建出农业领域本体,结合开源搜索引擎框架Nutch和农业领域本体实现基于本体的旱区农业垂直搜索引擎,最后完成用户检索接口和平台的建设。测试表明,系统平台具有良好的合理性和健壮性。
本文关键词: