面向学科领域的学术文献语义标注框架研究.docx
《面向学科领域的学术文献语义标注框架研究.docx》由会员分享,可在线阅读,更多相关《面向学科领域的学术文献语义标注框架研究.docx(17页珍藏版)》请在第一文库网上搜索。
1、向学科领域的学术文献语义标注框架研究海量的学术文献为科研工的研究带来了困难。语义标注是实现学术文献的快速阅读和知识的快速获取的基础,因此,本文旨在构建一个面向学科领域的学术文献语义标注框架,以规范和丰富学术文献的标注体系。本文从三个方面进行了研究:一是学术文献标注本体的构建,二是学科领域本体的构建,三是标注本体与领域本体的关联实例。本文从学术文献内容定位、概念关联、方法流程标注及引文标注几个方面给出了标注的实例。1引言20世纪80年代起,随着互联网及计算机软硬件的发展,数字出版的基础设施逐步发展成熟,数字学术出版物应运而生,而随之带来的是数字学术出版物在数量上呈现爆发式增长。2022年STM报
2、告:科技及学术期刊出版概述指出:截至2022年,CrossRef数据库包含超过7100万个D0I号,Google学术索引了 1亿1. 6亿的学术资源(包括期刊文献、书籍和灰色文献),Web of Science数据库中包含了约9000万条记录;截至2022年9月,中国学术期刊(网络版)共收录接近5000万篇中文学术文献。在这种背景下,学术交流产生了重大的变革。研究者可以从网络文献数据库中获取到大量的学术文献,这为研究者的研究工作提供了非常好的基础,但同时如此大体量的资源为学术工作的展开也带来了困难。首先,新概念的产生或者新涉足某一领域时,研究者需要学习大量的已有知识才能跟上现有的研究进展。而且
3、,研究者的时间是有限的,获取到的文献越多,分配到单篇学术文献阅读的时间则相应减少,Tenopir等1的研究就证实了这一假设研,研究者阅读文献不再是阅读全文,而是获取感兴趣的内容进行阅读:研究者通过浏览许多文章的部分来寻找、评估和利用一系列的信息2,这种阅读方式也被称作碎片化阅读。因此,第一个问题就是如何快速定位到文章的有用部分。另外,学术文献中的知识元存在大量的关联性,如引文关联、相关概念等,如何组织这些相关的知识元是研究者面临的第二个问题。因此,Renear等3提出了 “策略阅读”的概念,采用学科本体来表示及链接科学数据可以提高研究者阅读学术文献的效率,即需要利用学科本体对学术文献中的相关内
4、容进行语义标注(SemanticAnnotation) o语义标注就是将本体或元数据中的概念与资源建立联系的一个过程。其中,语义标注的核心是学科领域本体,本体最广泛的定义是“本体是概念模型的明确的规范说明” 4,它可以灵活地定义事物结构,以元数据的模式,提供概念受控词表,每个概念都包括一个明确定义的机器可理解的语义,且概念与概念之间的关联也显式地进行了定义,这样的结构能够让计算机进行推理应用。学术文献的语义标注就是借助领域本体,将学术文献中的相关内容与本体中的知识元(概念或关系)进行链接,当读者需要获取文献中知识元对应的描述时,可以借助语义本体从对应的知识库中进行获取。例如,Textpress
5、o5就是一个与本体关联的数据挖掘系统,它所包含的学术文献集依据本体中的术语分为了 33个类别,用户输入一个或多个标记或关键词集合就可以定位到学术文献中特定的句子,并可获取本体中词对应的含义,支持语义查询。预先对学术文献的结构、内容或引文信息进行标注后,读者可以通过这些标注信息快速定位到文章的部分内容实现“策略阅读”。目前,已有一些研究针对资源语义标注框架提出了标注本体的概念,标注本体旨在针对学术文献提出一个规范的本体框架,进而采用标注本体中的概念对学术文献的内容进行标注。目前已有的标注本体有PAV6、PR0V-07以及A08本体等。其中,PAV本体用于获取数字科技资源的出处、以及版本信息,用以
6、区别资源被获取、转换以及消费的过程;PROV-O是W3C小组制定的用于统一资源交换的本体;AO本体提供了用于标注生物医学领域科技文献的概念及关系。但是,现有的研究主要集中在标注本体的制定上,而如何对学术文献进行标注的研究比较少。为了实现学术文献的语义标注,首先需要明确学术文献所包含的知识元类型,在继承已有标注本体的基础上构建一个面向学术文献标注的标注本体,除了包含学术文献的一些标准元数据信息(、创建者、创建时间)以外,还包括了学术文献中的主题、发现、方法论等;其次,需要构建一个与某一学术领域相关专业术语的领域本体,包含该领域的概念及概念间的关联;最后,要将学术文献中的内容与本体中的概念对应,从
7、而可以通过标注信息实现文献的快速浏览,也可以通过URI对相应概念做进一步了解。因此,本文旨在构建学科领域学术文献语义标注框架,提出适用于学术文献语义标注的标注本体,以及针对学术文献具体内容(如引文信息、内容信息等)进行语义标注的方法。本文提出的学术文献语义标注框架也是实现文献语义检索的基础,通过语义标注,给予机器可以理解的语义,让使用者更方便更有效地利用学术文献,另外,提出的学术文献标注本体,可以被其他标注本体进行继承和扩展,具有较高的实践价值。2相关研究2.1学术文献语义标注方法相关研究学术文献标注主要有两种方法:一是社会标注,研究者在学术文献阅读过程中使用辅助阅读或管理的软件进行标注;二是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 学科 领域 学术 文献 语义 标注 框架 研究
