伴随着生物学医学研究中的高通量实验方法的使用和人类等物种基因组的测序工作的相继完成,与之俱来的是海量的生物信息以及广阔的的生物学医学研究前景。目前最大的生物学医学文献数据库PubMed中收录的文献数量已经达到了前所未有的海量程度,如何帮助生物学医学研究人员从繁重的文献阅读工作中解脱出来,利用先进的文本挖掘技术辅助生物学医学研究人员去发现文献内各种生物学关系是本文的研究目的。生物学医学文本挖掘的研究以生物学医学文献为主要对象,利用信息抽取的方法挖掘其中的蕴含的生物学关系。
本文从文献内基因与基因之间的相互调控关系角度出发,尝试从大量的文献中挖掘出基因与基因之间的相互关系并利用可视化的工具直观的展示它们之间的关系网络。首先,本文系统的归纳总结了现有的有关文献内基因名实体间关系挖掘系统软件和他们的挖掘方法与特点。然后,本文针对生物学医学文本挖掘的主要流程分别开展了文献内基因名实体识别和基因间相互调控关系抽取以及相互调控关系网络的可视化构建研究。在基因名实体识别的研究中使用基于词典匹配和机器学习方法相结合的识别策略,并对同义词现象做出了处理,保证了较高的识别准确率和召回率;在关系抽取的研究中,根据从生物分子事件相关语料中抽取出的相关动词与基本的基因名-动词-基因名的模式规则,成功从文本内抽取出了描述基因之间相互关系的信息。并成功通过可视化工具将结构化的调控关系信息构建出了基因间的相互调控关系网络。根据基因间相互关系挖掘的流程实现了一套挖掘文本信息与结果展示的系统,系统按照挖掘的流程被划分为几大模块,详细描述了每个模块的主要功能及流程,并简要介绍了系统的实现。分别对系统的基因名识别的召回率和准确率以及基因间相互关系抽取的性能进行了评测,基因名实体识别的整体性能令人满意但是关系抽取的性能还有较大的提升改进空间。接着系统对拟南芥、水稻、人类等物种的基因研究文献进行了挖掘实验,最后使用不同物种文献内抽取出的基因相互调控关系的结果分析了系统的运行情况。
本文关键词: