本文首先简要介绍了可扩展标记语言(Extensible Markup Language,简称XML),说明创建科技论文XML文档的意义与使用价值,并提出一个利用科技论文解析转换器将网上科技论文从HTML格式向XML格式转换的方案。然后详细阐述了一套完整的科技论文文档类型定义(DocumentType Definition,简称DTD),该DTD给出了科技论文的语义框架。 在此基础上进一步介绍科技论文解析转换器的设计与实现过程。该解析转换器以上述DTD为模板,把科技论文的HTML文档解析转换为符合DTD要求的XML文档,从而实现科技论文格式标注向语义标注的转换。 目前,由于中文科技论文的使用在我国占相当比重,本课题主要利用中文信息处理技术,对中文科技论文的语义标注进行了尝试。随着今后该课题的深入展开,将针对其他语种的科技论文信息作进一步探讨。
本文关键词: