基于多数据源的知识图谱构建方法研究.docx
《基于多数据源的知识图谱构建方法研究.docx》由会员分享,可在线阅读,更多相关《基于多数据源的知识图谱构建方法研究.docx(5页珍藏版)》请在第一文库网上搜索。
1、基于多数据源的知识图谱构建方法研究摘要:针对多数据源的融合应用,构建了基于多数据源的知识图谱。首先,对不同领域内的数据源构建相应本体库,并将不同本体库通过数据融合映射到全局本体库,然后,利用实体对齐和实体链接方法进行知识获取和融合,最后,搭建知识图谱应用平台,提供查询和统计等操作。在实体对齐方面,利用传统的基于相似性传播实体对齐方法,获得良好的实体对齐效果;在实体链接方面,提出了基于约束嵌入转换的预测推理方法,实验结果表明,在预测准确率上取得较好的结果。O引言在大数据时代背景下,随着海量数据的出现以及多数据源融合交叉应用,传统的数据管理模式以及查询方式受到一定的制约。近年来,知识图谱(KnoW
2、IedgeGraPh)作为一种新的知识表示方法和数据管理模式,在自然语言处理、问题回答、信息检索等领域有着重要的应用。知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系;其基本组成单位是“实体关系实体三元组,以及实体及其相关属性值对,实体间通过关系相互联结,构成网状的知识结构。随着谷歌知识图谱的发布,知识图谱的构建与应用研究引起了学术界和工业界的广泛关注。在国内,知识图谱的构建与研究己经起步,相应取得许多重要的研究成果。如:搜狗的知立方、百度知心;复旦大学GDM实验室设计了一种面向图书阅读领域的中文知识图谱;金贵阳等利用知识图谱和语义网技术,提出构建企业知识图谱的方法
3、,并应用于钢铁企业信息集成,提高了企业信息查询的效率;胡芳槐在博士论文中研究了基于多数据源的中文知识图谱构建方法,涉及到本体层构建、实体层的学习等,同时构建行业领域知识图谱的应用平台;王巍巍等构建了双语影视知识图谱,包括影视本体库的构建、实体的链接、实体匹配等,并搭建了应用平台与开放数据访问接口;鄂世嘉等提出了一种端到端基于中文百科数据的中文知识图谱自动化构建方案,并开发面向用户的中文知识图谱系统。现有的行业领域知识图谱通常采用手工构建方式,缺乏统一的构建方法,且这类知识库目标是特定行业领域,因此,其描述范围极为有限。针对这些问题,提出了将不同领域知识库进行融合成一个知识图谱,旨在构建语义一致
4、、结构一致的多数据融合知识图谱,实现对不同领域内的知识进行查询和展示,从而提高了数据查询效率。本文提出一个多数据源融合的知识图谱构建流程,并对关键技术进行研究,包括数据源的获取、领域本体库的构建、全局本体库的构建、实体对齐、实体链接以及应用平台的搭建。文中利用某地区的医院医疗保健数据、空气污染监测数据和环境监测数据,构建了多数据融合的知识图谱。1知识图谱构建过程知识图谱构建是知识图谱得以应用发展的前提,涉及实体抽取和实体及实体之间关系的建立,同时还需要很好地组织和存储抽取的实体与关系信息,使其能够被迅速的访问和操作。知识图谱构建过程通常可以分成两步:知识图谱本体层构建和实体层的学习。本体层构建
5、通常包含术语抽取、同义词抽取、概念抽取、分类关系抽取、公理和规则学习;实体层学习则包含实体学习、实体数据填充、实体对齐和实体链接等。知识图谱的构建方法通常有自顶向下和自底向上两种。所谓自顶向下的方法是指先构建知识图谱的本体,即从行业领域、百科类网站及其它等高质量的数据源中,提取本体和模式信息,添加到知识库中;而自底向上的方法是指从实体层开始,借助于一定的技术手段,对实体进行归纳组织、实体对齐和实体链接等,并提取出具有较高置信度的新模式,经人工审核后,加入到知识图谱中。然而,在实际的构建过程中,并不是两种方法孤立单独进行着,而是两种方法交替结合的过程。本文在构建多数据源的知识图谱时采用两种方法的
6、结合,首先采用自顶向下的方式来构建本体库,然后采用自底向上的方式进行提取知识来扩展知识图谱。Fig.1Know1edgegraphbaseddatafusionmode1本文基于多种数据源的融合技术,构建相应的知识图谱,具体过程如图1所示。图1中是从多种不同的数据源,如各个领域中的结构化、半结构化和非结构化数据,构建相应的领域本体库,然后将它们映射为全局本体库,接着对这些领域知识图谱通过知识获取和数据融合构造知识图谱,最后通过搭建相应的应用平台,方便对知识图谱进行查询与更新。2多数据源融合的知识图谱构建为了能充分利用不同领域内的知识,实现不同领域内数据快速查询,本文在融合多种数据源的情况下,构
7、建了多数据源的知识图谱。首先对不同领域内构建不同领域的本体库,然后将不同领域的本体经过映射成全局本体库,接着对各个领域的知识库进行实体对齐和实体链接,丰富和拓展所构造多数据融合的知识图谱。2.1数据源用于构建知识图谱的本体库数据源可以来源于结构化数据、半结构化数据和非结构化数据,以及现有的一些通用知识图谱库等。本文用于构建本体库的数据源如表1所示。1)结构化数据。其主要是指关系数据库中的表、exce1表以及其它具有结构的数据。2)半结构化数据。其主要指介于结构化数据和无结构化数据之间,通常的XM1、HTM1等相关网页属于半结构化数据。半结构化数据主要来源于维基百科、百度百科等。3)无结构化数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 多数 知识 图谱 构建 方法 研究