科技论文是科学技术研究活动产出的一种重要形式,是促进现代科学技术转化为现实生产力的重要媒介。目前科技论文大多采用文字处理软件(如Microsoft Word等)进行编辑,由于Word等格式为非结构化的文本,不能直接提取标题、作者、摘要、关键词、正文等论文要素,难以满足科技论文结构化检索、统计分类、关联分析等高层次应用需求。本文工作主要围绕传统科技论文的结构化析取展开,通过分析传统科技论文的基本构成和格式特征,基于特征学习提炼析取规则,设计并实现一个传统论文结构化析取系统,可将传统论文按多维科技论文的格式要求导出结构化文本。
论文的主要工作和创新包括:1)通过分析国内核心期刊中科技论文的格式特征与存储标准,结合多维科技论文的结构化存储要求,设计并实现了一个科技论文结构化析取的总体技术框架,该框架具有良好的可扩展性。2)提出一种Word文档结构化信息析取算法,该算法由三部分组成:首先,样本学习:由于各期刊的论文发表格式不尽相同,先对各期刊的传统论文分别进行样本学习,标识Word文档中各论文要素的文本、格式特征,生成析取规则并存入规则文档库。其次,信息析取:选择与预析取期刊论文相对应的析取规则,从Word文档提取出相应的论文各要素信息。也可对期刊存储目录的论文进行批量提取。最后,生成多维论文:自动生成基于XML的符合多维科技论文存储格式的结构化多维科技论文。3)设计并实现一个基于特征的传统科技论文结构化析取系统XWordExchanger。系统开发集成信息析取技术、XML结构化技术和机器学习技术,目前该系统试用情况良好。 本文关键词:
思路范文
钢管
大班
中国有色金属
手外科
新锐
执行
通化
晚霞
古典园林
改进
零部件
人文地理
比较好的
元件
科学决策
郑州市区
工业经济
民国
怎么做