通用英汉谓词语法标注方案.docx
《通用英汉谓词语法标注方案.docx》由会员分享,可在线阅读,更多相关《通用英汉谓词语法标注方案.docx(17页珍藏版)》请在第一文库网上搜索。
1、通用英汉谓词语法标注方案摘要:经过语法标注的语料对语言的研究、教学、测试、词典编撰等各领域都具有重要意义。国内外语法标注的体系存在四个主要问题:(I)标注的重点各不相同,有的侧重结构,有的侧重功能,有的侧重语义;(2)标注的层次深浅不一;(3)在语法范畴的划分和术语的使用上各行其是;(4)国内树库的建设原创性不足,标注不够深入。本文作者从语言共性的角度出发,建立了一套通用的英汉谓词语法标注方案,区分语法形位和词汇形位,对语料的切分尽可能做到使英汉形位在形式、功能及意义上相互对应。我们通过对一个小规模英汉平行初级儿童读物语料库里的谓词进行标注,结果证明这套标注方案是可行的。关键词:英汉谓词;语法
2、标注;英汉平行语料库;儿童读物1、引言要想让机器理解和产出自然语言并从事语言间的互译,除了对不同语言的语料按照语言单位进行多层次切分并对切分后的语言片段进行语言间的语义匹配外,更重要的是,要对这些语言片段之间的语法关系进行分析和标注。为此,需要一个能对两种语言同时进行分析和标注的语法体系和标注方案(annotationscheme)。对语料库的语法标注始于上世纪80年代,现已开发出多个标注方案,对英语、汉语等不同语言的语料库进行了程度不同的标注,产生了规模不等的树形语法结构库,即树库(treebank)。其中美国宾夕法尼亚大学英语树库(ThePennTreebank,简称PTB)的标注方案还被
3、用来标注汉语,从而建立了宾大汉语树库(ThePennChineseTreebank,简称CTB)。由于所采纳的语法理论以及建库的目标等因素的不同,各个语料库之间很难做到信息共享。从语言对比的角度来说,不利于语言之间的对比分析。基于以上考虑,我们尝试着从语言普遍性的角度出发,构建了一套谓词语法标注体系。该体系采用统一的标注方式,既能用于标注英语语料,也能用于标注汉语语料。这样,不仅能获取语法知识,还可以进行语言之间的对比研究。同时,对于机器翻译来说也具有很大的启示Q2、国内外句法标注体系概述语法标注的目标是对语料文本进行句法分析和标注,从而形成树库语料。经过标注的语料可以用于语言学研究、语言教学
4、、语言测试、词典编撰等诸多理论研究和实践应用领域。上世纪80年代末90年代初美国宾夕法尼亚大学建立起第一个大规模树库一一宾大树库,紧接着英国建立了兰卡斯特利兹树库(1ancaster-1eedsTreebank)o之后许多国家纷纷建立起自己语言的树库,如德国萨尔州大学(Saaf1andUniversity)建立的带句法标注的德语报刊文本语料库(TheNEGRAcorpus)和斯图加特大学(UniversityofStuttgart)建立的TIGER树库以及捷克PDT树库等;汉语树库有美国宾夕法尼亚大学的汉语树库、中国台北中研院的中研院汉语树库(SiniCaTreebank)、北京大学中文树库和
5、北京大学现代汉语树库、清华汉语树库(TSinghUaChineseTreebank,简称TCT)、国家语委现代汉语树库等。宾大树库的标注体系经历了一个从简单到复杂的不断进化发展的过程。PTBT采用了骨架分析(Ske1-tonParsing)思想,形成比较扁平的句法结构树。该标注体系标注英语的8种短语、2种陈述句、从属句、Wh一直接疑问句、一般直接疑问句的次成分、不明类别以及4种零形式成分(MarCUSeta1.,1993)oPTB-2主要是用于提取述谓一论元结构(PrediCate-argumentstrut-ture)0目前Penn树库又把目光转向了语篇的标注。兰卡斯特的语法标注源自于Sam
6、pson对1ancas-ter-1eeds树库的手工分析,也采用骨架分析技术。这一标注体系使用详细的括号标识系统和简化的成分集(Garsideeta1.,1992),标注的成分包括6种短语、7种语句、句子、属格和并列成分。此外,还包括没有标识的成分和并列成分。尽管宾大树库和兰卡大学树库都采用的是骨架分析的方法,但是宾大树库的短语分类多于兰卡大学树库,而语句的分类较少。此外,宾大树库除了标注短语和句子两个层面外,还添加了功能标记。也就是说,宾大树库的标识集相对要全面一些。在德国首先建立起来的树库是NEGRA德语语料库(SkUteta1.,1998;Brantseta1.,1999),内容主要是经
7、过句法标注的新闻文本,大约有20,000个标注的句子。接着建立了规模更大、标注更全面的TIGER树库(BrantSeta1.,2002)oTIGER树库1O版中非终端节点的标识集标注的成分包括12种短语、3种并列形式、2种不定式、2种多形符形式、句子、语块、准语言、专有名词、特殊单位和话语层成分(Smith,2003)o可以看出,TIGER树库在短语分类上更细,标注层更深。捷克PDT语料库的标注体系是一个包含有3个相互关联层次的系统:一是形态(扩充的词类)标注,它含有特定词形的形态信息;二是分析性句法标注一一依存树的节点是带有标记的构句词形以及表示支配节点和依存节点之间句法关系的标注(如主语、
8、宾语、附语、状语等);三是句法语义标注,即依存树的节点是标有实义的构句词形和表示句法一语义关系的标注(如施事、受事、结果、出处和各种不同的状语修饰成分等)。捷克语料库句法标注的特点包括以下几点:每个词和标点符号都由一个节点表示;除树根外不增加节点;最终体现出来的是一棵依存树,树线(链接)被明确标出(标记粘着在依存树的依存成员上);允许有非投射。在最终的树图上每个节点的标注在分析句法层面上包括3部分:词汇(词形)、形态标记和句法标记(Hajio&Hajiaova,1997)oPDT的标注体系显然完全不同于前文所提到的其他树库。它标注的不是成分结构,而是句法关系。这主要和构建树库的语法理论有关,P
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 通用 英汉 谓词 语法 标注 方案