随着互联网上信息量的迅猛增加,语言学工作者研究的不断深入,如何在纷繁复杂的文献材料中,快速、准确地找到用户需要的信息,文本分类起着非常重要的作用。而其中,基于语义的文本分类逐渐成为主流,语义关系的最佳载体—本体,成为了学术界关注的焦点。本体就是对概念和关系的描述,基于本体的文本分类就是基于知识层面和语义层次上的分类。本文在论述语言学领域本体库建立并应用于文本分类意义的基础上,通过细致分析语言学内部词语之间的语义关系,构建了语言学文献的领域本体。提出了基于本体语义关系进行匹配的语言学文献分类方法。
首先,利用已有的分词系统对文献进行分词处理和关键词抽取,采用经过一定改进的TFIDF算法,对文献关键词进行特征选择,确定待分类文本的特征项。然后将这些特征项与领域本体库中存储的领域特征项进行匹配,从而得到文本的类别。本文介绍了两种分类算法,一种是基于概念语义的匹配,种是非一致性模糊匹配。无论采取哪种算法,都可以在一定程度上弥补当前分类系统缺乏语义联系的不足,提高文本分类的准确性。
本文关键词: