《飞行态势知识图谱及其问答系统的构建方法.docx》由会员分享,可在线阅读,更多相关《飞行态势知识图谱及其问答系统的构建方法.docx(19页珍藏版)》请在第一文库网上搜索。
1、飞行态势知识图谱及其问答系统的构建方法目录内容提要1简介1引言1?系统架构3?系统功能模块设计42.1.概述4?飞行态势知识图谱设计与构建5?飞行态势数据模型5?知识图谱存储6?知识问答模块的设计与实现82.3.1.概述8?问题多分类模型9?问题实体识别模型11?前端交互模块设计15?试验与结论16?试验准备16?试验结果与分析16?结束语18内容提要本文针对包含时间区间、坐标信息等复杂数据类型的飞行态势数据,研究飞行态势知识图谱及其问答系统的构建。简介针对包含时间区间、坐标信息等复杂数据类型的飞行态势数据,研究飞行态势知识图谱及其问答系统的构建。首先,基于时空知识图谱模型对复杂飞行态势数据进
2、行统一化表示,构建飞行态势知识图谱;然后,针对飞行态势相关问题理解设计问句多分类器,并采用门控循环单元(GRU)和条件随机场(CRF)对问句进行命名实体识别,将问题与问句模板进行匹配生成CyPher查询语句;最后,查询答案并返回给用户。试验结果表明,该知识问答系统在试验评价和实际使用中均具有良好性能。引言随着人工智能技术发展和大数据时代到来,不同领域专业数据均在爆炸式增长,基于领域大数据对行业进行数字智能化改造的需求也越来越强烈,成为当前国内外的研究热点之一。飞行区空管领域涉及飞行态势、道面和气象等大量复杂异构的领域相关数据,尤其以飞行态势为代表,除了常见的静态知识外,航班的起飞时间和降落时间
3、等时间信息、经纬度坐标与海拔高度等空间信息的灵活表征是构建面向飞行区空管领域飞行态势知识图谱的主要难点,直接影响到当前飞行区空管领域的智能化程度。同时,传统的信息搜索方法也越来越难以满足现实场景下对答案准确性的要求,因此如何构建一种能够准确理解现实场景下查询需求的智能问答系统也是当前国内外的研窕热点之一。飞行态势领域包含大量航班号、飞机识别码、备降机场、起飞时间及起飞地点等相关数据,数据结构复杂但蕴含大量有价值的信息。针对海量而复杂的飞行态势数据,智能化空管系统只有能快速、精准地从中获取专业数据信息,才能有效依据专业数据指导空管系统相关工作。研究发现,飞行态势领域下各类信息间的数据结构差异巨大
4、,高效可视化查询方法的缺乏以及现有知识图谱模型对该领域数据在表征上的欠缺,导致很难对飞行态势数据进行深层次且有价值的信息挖掘。针对上述问题,本文先介绍了一种可以对飞行态势进行高效表征的知识图谱模型,并结合领域相关开源数据集和由Web获取到的飞行态势相关数据,构建了中英文2种飞行态势知识图谱,同时设计并实现了一个基于飞行态势知识图谱的知识问答系统。基于知识图谱的飞行态势数据管理可以高效发现、整合和使用领域相关的异构数据。基于飞行态势知识图谱的知识问答系统可以简洁快速地回答复杂业务问题,提高用户与系统之间的交互能力。基于知识图谱的数据处理技术能够将海量异构数据转化为由领域实体、实体间关系及属性构成
5、的结构化数据,为知识问答系统提供高质量的知识库,有效提高知识查询的准确性。知识图谱概念由Goog1e公司在2012年首次提出,并迅速衍生出大量如DBPedia、FreebaSe和YAG02等知识图谱构建项目,这些通用领域的知识图谱有效提高了数据检索的智能化水平,加快了知识问答系统的发展。近年来,适用于飞行区空管领域的时空图谱数据模型取得了一些研究成果。例如,王益鹏等提出从概念、对象、状态、特征和关系5个层次建立时空事件知识表达模型,并充分顾及时空事件信息的多粒度特性,在模型中将不同特征信息统一至各个对象中。Meng等提出了一种将时间域和空间位置三元组附加项的知识图谱模型,可以在静态知识图谱中对
6、时间信息和空间信息进行表示;Sheth等提出了一种时空数据模型STT,模型结构为(SP其中t可表示时间点或时间区间;KOUbarakiS等进一步提出了时空四元组StRDF,模型结构为(sp。,),其中T表示时空四元组的时态约束;Wang等提出了时空数据模型gst-Store,模型结构为(spo,t),其中,1和t分别表明位置和时间区间;ZhU等提出了基于时空谓词的时空数据模型StRDFS,模型结构为(s,p:vt,1,o),StRDFS还额外提供了时空RDF的语法和代数操作。研究发现,当前面向飞行区空管的知识图谱模型仍缺乏对飞行态势事件在时间域和空间域上的连续表示,针对静态知识三元组附加飞行态
7、势知识表示也给相关应用带来了额外的系统开销。适用于飞行区空管领域的时空知识问答系统也得到关注。例如,李伟刚等采用面向领域本体的问题分类方法和结构化的语义信息提取方法,在航空领域本体知识库中检索答案,实现了基于本体知识库的航空领域问答系统。面向通用领域的知识问答系统,Yin等设计了一种结合注意力机制的卷积神经网络模型,并基于FreebaSe数据库进行了知识问答系统的设计与实现;杜泽宇等构建了一种基于知识图谱的电商行业智能问答系统,在现实场景中进行了部署和使用;李代祎等设计了一个基于知识图谱的军事武器问答系统,在领域问答上取得了良好表现,具有较高应用价值。研究发现,基于知识图谱的问答系统针对同一问
8、题可能拥有的多种不同问答方式,仍不能准确进行问句解析。同时,如何将问答对之间的知识关联转化为知识图谱上的杳询语句,仍有待研究。为了解决上述问题,本文以现有飞行态势公开数据集为基础,构建了一个面向飞行区空管的飞行态势知识图谱,设计实现了一种基于飞行态势知识图谱的知识问答系统。本文基于飞行态势领域开源数据集和Web端获取到的飞行计划、航班信息等数据,采用一种时空知识图谱模型,构建了中英文2种飞行态势知识图谱,为知识问答系统提供数据支撑,并采用Neo4j图数据库对知识图谱进行存储和管理;构建20种飞行态势知识查询模板及问答训练集,设计实现了基于支持向量机(SVM)的问句多分类器;采集飞行区空管领域文
9、本数据,构建命名实体识别语料库,结合WOrd2Vec字向量语言模型设计实现了门控循环单元(GRU)和条件随机场(CRF)命名实体识别模型;基于Django框架和JaVaSeriPt库设计实现了知识问答系统的Web端交互界面。系统架构本文构建的基于飞行态势知识图谱的知识问答系统总体架构如图1所示。该问答系统包括以下3个模块:1)知识图谱构建:获取Web中经过严格整理和清晰的飞行态势公开数据集,根据飞行态势知识体系设计飞行态势知识图谱中实体、属性及关联关系的结构;将原始数据根据设计的飞行态势知识图谱模型进行映射,构建面向飞行区空管的飞行态势知识图谱;最后,将数据导入图数据库Neo4j中进行存储和管
10、理。2)知识问答:设计飞行态势知识查询模板,并构建模拟用户的自然问答对训练集。首先,利用基于统计的TF-IDF(词频逆文件频率)算法对问句进行文本向量化,结合SVM设计针对问句进行分类的多分类器;然后,从Web端“爬取”飞行区空管领域文本数据进行实体识别语料标注,采用Word2Vec字向量语言模型对文本数据进行向量化处理,设计GRU-CRF命名实体识别模型对向量矩阵进行推理计算,实现文本命名实体识别任务;最后,根据问句匹配后的模板,自动生成CyPher查询语句从知识图谱中查找答案。3)前端交互:基于Django框架和JavaScript库设计问答系统的Web端展示界面。领域相关开源数据集前端交
11、互I问题输入II答案输出11飞行态势数据模型转化飞行态势知识图谱用前端展示界面F问至二问句分类Neo4j模板匹配图数据库查询语句生成JJ图1知识问答系统总体架构知识问答系统包括飞行态势知识图谱构建、自然问句的解析与分类,问句模板匹配及查询语句的自动生成、查询结果的返回与在Web端进行人机可视化交互。系统运行流程为:1)用户在前端交互模块输入待查询问题传给后台中的知识问答模块;2)对用户问题进行问句解析与分类,识别问句中的实体并根据分类结果为匹配问句对应的查询模板自动生成Cypher查询语句;3)在构建的飞行态势知识图谱中进行查询,将查询结果经前端交互模块返回给用户。系统功能模块设计2.1.概述
12、本文设计的知识问答系统分为数据层、逻辑层和展示层,并设计关联前后端的独立AP1接口、减少各层间的信息传递来保证系统的低耦合性。其系统结构如图2所示。各层功能如下:1)数据层:完成对飞行区空管领域文本数据的“爬取”及标注,获取开源数据集构建飞行态势知识图谱;2)逻辑层:设计实现针对输入问句的多分类模型、命名实体识别模型和模板匹配算法,自动生成相应的查询语句,实现基于飞行态势知识图谱的知识问答;3)展示层:完成知识问答前端交互界面的设计与实现。图2系统结构飞行态势知识图谱设计与构建画翻飞行态势数据模型飞行态势领域数据除包含航班号、飞机编号和飞机机型等静态知识外,还包含航班起飞时间、降落时间以及飞行
13、途中的经纬度坐标、高度等时空信息。经典的知识图谱采用三元组结构(S,p,0)对知识进行表示。其中,S为主语;P为谓语;0为宾语。该知识表示模型可有效将实体与实体通过关联关系进行组织表示,但是对静态知识以外的时空信息等无法进行灵活表征。本文采用一种对表达形式进行拓展的知识三元组(S,P,OT1,T2,1)其中,。为拓展表示后的宾语;拓展知识结构中,T1和T2为时间点(形式为yyyy-MM-ddHH:mm:ss);1为指定宾语所具有的空间信息,如经纬度及高度。同时,T1和T2具备时间序列特点,T2T1o1为宾语所携带的空间信息,本文构建的知识图谱主要面向飞行态势领域,故将1表示为一组经纬度+海拔高
14、度的空间信息组(IatitUde,1ongitude,a1titude),记录机场或飞机飞行过程中三维空间位置。飞行态势知识图谱模型示例如图3所示。K1DJ(2019-07-3104:55:03),(2019-07-3104:55:03),(21.02820444915254,113.5399058%8864,103)VTBS(2019-07-3106:45:00),(2019-07-3106:45:00),(13.77017211914062,100.76072955953659,426.72)在途/(2019-073105:30:00),(2019-07-3105:30:00),(68.3
15、13455145,223.4635322,7668.0)图3飞行态势知识图谱模型示例图3中,中心节点飞机尾部编号指每架飞机尾部喷涂的飞机注册号,每个飞机尾部编号节点代表一架飞机实体。关系飞机机型和应答器识别号分别指明该飞机具有的对应属性。在飞行态势领域,每架飞机值飞时均会编写一组航班代号来方便管理和区别,航班号原则上每日不会重复出现。在本文构建的飞行态势知识图谱中将航班号表示为CA310(2019-07-3100:00:00),表明2019年7月31日的CA310航班。针对某架次飞机在起飞飞行-降落-停机等一系列的时空信息,以降落和停机为例:降落表示为VTBS(2019-07-3106:45:00),(2019-07-3106:45:00),(120.2879074384581,379.53990589,31)”,表明航班CA310在2019073106:45:00降落在VTBS机场,该机场坐标约为(120.288,379.540),海拔高度为31m;停机表示为“K1DJ(2019-073023:50:00),(2019073104:55:03),(21.02820444915254,113,5399058948864,103)”,表明航班CA310在2019-07-3