中文期刊网,快速职称论文发表权威机构

中文期刊网

您的位置:首页 > 论文 > 科技论文 > 中文科技论文文本分类研究

中文科技论文文本分类研究

来源:期刊网  作者: 陈频;   导师: 王周敬;   时间:2018-04-22 17:05:23  点击:

  随着人们对科学技术和社会发展的日益重视,学术领域呈现多元化、信息化、现代化的趋势。在这种情况下,研究者们比以往任何时候都迫切地需要高效、全面、方便的学术信息。因此,中文科技论文文本分类研究具有较高的理论研究价值和应用前景。

  本文针对中文科技论文文本特殊的文体格式和语言风格进行了系统地研究。全文主要从预处理、特征提取和分类算法三大部分展开,重点研究了基于自然语言处理的特征提取和基于层次分类模型的分类算法。预处理方面,本文分为两个步骤:科技论文文本数据预处理和中文分词处理。特征提取方面,分为文本特征表示和文本特征优化,而重点放在文本特征表示这一部分。在自然语言处理方面,主要建立了基于自然语言处理的特征提取模型。语法分析层面,本文提出一种基于词性判断规则的组块分析策略,对自然语言进行“分而治之”的语法分析;语义层面,结合中文科技论文文本的强领域特征建立了一个领域概念树模型,并在此基础上进行了概念语义分析;语用层面,则在概念层上基于词汇间相似度和关联度,提出了一种语境分析方法。实验表明,在自然语言处理中,选择领域概念作为特征项,其宏平均下的F1值为79.35%,微平均下的F1值为88.00%。在分类算法方面,本论文提出了一种新的层次分类模型,为分类算法建立了一个优良的模型依据。它的基本思想可以分成三个步骤:首先根据复杂特征集中的结构成分标记(组块标注)来分裂结构成分;然后对构成归并类别的结构成分进行分类处理;最后通过归并类别的相似度阈值来判断是否与下一个归并类别共同分析。实验表明,随着分类类别粒度的细化,采用新的分类算法的分类器在精确率和召回率方面优势逐渐突出。相对于KNN、NB和SVM分类器更适合于中文科技论文文本的分类要求。

本文关键词:

收缩
  • 电话咨询

  • 400-801-3439