融合语言知识的统计句法分析
袁里驰1, 2
(1. 江西财经大学 信息学院 数据与知识工程江西省重点实验室,江西 南昌,330013;
2. 中南大学 信息科学与工程学院,湖南 长沙,410083)
摘要:利用语义、语法等语言知识,建立一种分层句法分析统计模型,并进行句法分析实验。研究结果表明:该模型具有规则和统计相结合的特点,且在层次分析的不同阶段,根据不同的语法、语义、语用特性采用不同的方法和不同的统计模型;该模型结合分词、词性标注进行句法分析,是一个词汇化的句法分析模型,可同时考虑多个语义依存关系;采用该模型,精确率和召回率分别为87.23%和86.15%,其综合指标F与头驱动句法分析模型的相比提高了5.25%。
关键词:自然语言处理;词聚类;中心词驱动;句法分析统计模型
中图分类号:TP391.1 文献标志码:A 文章编号:1672-7207(2012)03-0986-06
Statistical parsing with linguistic features
YUAN Li-chi1, 2
(1. School of Information Technology, Jiangxi University of Finance & Economics, Nanchang 330013, China;
2. School of Information Science and Engineering, Central South University, Changsha 410083, China)
Abstract: By incorporating linguistic features such as semantic dependency and syntactic relations, a novel statistical parsing model was proposed, and experiments were conducted for the refined statistical parser. The results show that the mode not only takes advantage of linguistic features such as semantic dependency or syntactic relations, but also considers context such as adjoining words. The model can take advantage of a few semantic dependencies at the same time. It is a parser based on lexicalized model. It achieves 87.23% precision and 86.15% recall using the model, and comprehensive index F is improved by 5.25% compared with that using the head-driven parsing model.
Key words: natural language processing; word clustering; head-driven parsing model; statistical parsing model
对自然语言的句法结构进行语法、语义、语用等多方面、多角度分析[1-3],近年来已成为汉语语言学界的共识,3个平面的研究已成为现代汉语研究中的热点,但大多数者从不同的角度进行研究,而没有将不同的语言特性综合考虑,系统地将其应用到句法分析中,建立规则与统计方法相结合的句法分析模型。基于树库的统计句法分析[4-10]是现代句法分析的主流技术。构建统计句法分析模型的目的是以概率的形式评价若干个可能的句法分析结果(通常表示为语法树形式)并在这若干个可能的分析结果中直接选择1个最可能的结果。基于统计的句法分析模型其实质是1个评价句法分析结果的概率评价函数,即对于任意1个输入句子s和它的句法分析结果t,给出1个条件概率P(t|s),并由此找出该句法分析模型认为概率最大的句
法分析结果即,句法分析问题的样本空间为。其中:S为所有句子的集合;T为所有句法分析结果的集合。Collins[11]提出的中心词驱动的句法分析模型是当前句法分析的主流模型,其基本思想就是在上下文无关文法规则中引入词汇化信息和短语的中心词信息。这2种信息的引入增强了句法分析模型的消歧能力,然而,不可避免地带来了严重的数据稀疏问题。统计句法分析[12-17]面临的一个主要问题是如何发现和利用具有强消歧能力的语言特征知识,同时保证语言知识的应用不会使模型的参数急剧膨胀而导致严重的数据稀疏问题。为此,本文作者建立了1种新颖的句法分析模型。该句法分析模型基于规则与统计方法相结合,将语法、语义、语用等语言学知识融入句法分析中:首先根据语法、语用知识对句法结构进行层次分析;其次运用语法功能等语法特性分析同一层次结构之间的组合关系和语法关系,并根据语用知识分析它们的排列顺序。最后考虑短语或句法成分中的词之间的语义依存关系[18-20]。
1 模型的特点和分析步骤
1.1 模型的特点
(1) 利用其他句法分析方法作为初始句法分析器。先用其他的句法分析方法(如上下文无关语法)进行句法分析,得到所有可能的句法树,在句法分析树的基础上,利用语法、语义、语用等语言学知识逐层对句子、结构(短语)、词进行句子成分、语法关系、语法功能、词性和排列顺序分析,使用规则和统计相结合的方法对句法分析树进行选择。
(2) 模型建立在聚类的基础上。在统计语言模型中,词的聚类[21-22]是解决数据稀疏问题的主要方法之一。聚类既有依据语法特性的,又有依据语义特性的。词性的划分实际上就是依据语法特性对词进行分类,但词的数目巨大,通常词性的划分并不能完全反映词的不同语法特性,所以,有必要利用聚类的方法,依据不同的语法特性对词进行进一步分类;另一方面,具有相同语法特性的词的语义特性不一定相同,也有必要依据语义特性进行聚类。
(3) 该句法分析模型是一个模型框架,具有规则和统计方法相结合、多个统计模型相结合的特点。
利用层次分析的思想,在层次分析的不同阶段,根据不同的语法、语义、语用特性采用不同的方法和不同的统计模型来解决问题。
1.2 模型的分析步骤
1.2.1 利用初始句法分析器对句子进行分析
利用初始句法分析器对句子进行分析,得到可能的句法分析树。例如利用上下文无关语法初始句法分析器对句子“Astronomers saw stars with telescopes”进行分析可得到图1所示的2棵句法树。
图1 句子Astronomers saw stars with telescopes的2棵分析树
Fig.1 Two parse trees of sentence “Astronomers saw stars with telescopes”
1.2.2 对句子进行句法成分分析
(1) 确定句子成分层次的短语。在分析树的基础上,确定句子的谓语(中心语)和与谓语(中心语)有直接语法关系的其他短语,这些短语与谓语(中心语)在句子中居于同一层次。句子中,绝大多数句子的谓语(中心语)是由动词(短语)担当的。
例如图1所示2棵分析树的谓语(中心语)都是V(saw),产生式V→ saw的概率是
(1)
2棵分析树与谓语(中心语)V(saw)居于同一层次的结构(短语)依次排列分别为:
NP V(saw) NP和NP V(saw) NP PP
(2) 对句子成分层次的短语进行语法功能分析。
1) 利用语法、语用知识建立规则,对短语进行成分标注。不同的短语在句子中可担当不同的句子成分,同时句子成分在组成和排列顺序都受语法的限制;但另一方面,句子成分的排列顺序有较大的灵活性,语用对句子成分的排列顺序也有很大的影响。若用统计的方法对句子成分排列顺序的概率进行计算,则由于句子成分数目较多(句子成分主要有主语、谓语、宾语和状语,状语又分为时间、地点、条件、目的、原因、结果、程度、方式等状语),参数规模过大导致的数据稀疏问题将会非常严重,因此,对结构(短语)进行成分标注应该利用语法、语用知识,使用规则的方法。在进行成分标注的同时,可排除一些错误的分析树。
例如,对上述2棵分析树的成分标注为:
NP-s V-p (saw) NP-o
NP-s V-p (saw) NP-o PP-wadv
其中:后缀-s,-p,-o和-wadv分别表示结构(短语)的句法成分标注为主语、谓语、宾语、方式状语。
2) 利用句法成分与句子中心成分谓语(动词短语)的语法功能关系,将句法成分构成概率空间分成以谓语为条件的相互独立的概率子空间:
(2a)
(2b)
(2c)
其中条件概率式(2a),(2b)和(2c)分别表示句子中心成分(谓语)为动词(V)saw时,主语、宾语、方式状语为短语NP, NP和 PP的概率。对句子的基本组成成分(句子的必选格、施事、受事和对象等)和附加成分(句子的可选格,时间、处所、工具、条件、原因、目的和方式等),条件概率参数的训练有所不同:基本组成成分应考虑短语为空的产生式条件概率;而附加成分不考虑短语为空的产生式条件概率。2棵分析树的成分标注构成概率的计算分别由下2式给出:
(3)
(4)
为了减少数据稀疏产生的问题,上述条件概率的计算式中动词saw可用saw的语法类来代替。
1.2.3 确定句子成分的中心词(头词)
确定了谓语的中心词后,第1棵分析树的其他句子成分为NP-s,NP-o和主语(NP-s)结构的中心词显然为Astronomers,宾语NP-o(stars with telescopes)由NP(stars)和PP(with telescopes)组成,其中NP(stars)为NP-o的中心子结构(短语),它的中心词显然为stars,故宾语NP-o的中心词为stars。这些中心词(头词)句子成分的出现主要与2个因素有关:结构(短语)对中心词的词性要求,如宾语NP-o的中心词stars的词性必为名词(N);句子成分的中心词与句子中心成分和其他句子成分的中心词有语义依存关系,如宾语NP-o的中心词stars与谓语V-p中心词saw有语义依存关系。设词stars与词saw有语义依存关系,用三元组表示词对和它们之间的依存关系,则词stars的出现概率由下式计算:
(5)
其中:中的*表示可能与词saw有语义依存关系的词,条件概率式(5)表示在词性为名词且与词saw有语义依存关系的条件下,词stars的出现概率。
由贝叶斯公式和独立条件,有:
(6)
由贝叶斯公式,有:
(7)
将式(7)代入式(6),得:
(8)
式(8)的概率意义十分明确,表示在词性为名词的条件下,词stars的出现概率。而
(9)
式(9)表示在与谓语V-p中心词saw有语义依存关系的条件下,词stars出现的概率。
为了减少数据稀疏产生的问题,式(9)左边的条件概率的计算式中,动词saw和名词stars可用它们的语义类来代替,即设saw和stars的语义类分别为Csaw和Cstars,则
(10)
1.2.4 短语分析
(1) 对短语进行层次分析,确定同一层次的短语。短语的组成虽然可以有很多层次,但同一层次组成比较简单,一般由2个短语依照一定的语法关系组合成1个短语,且这2个短语的排列顺序比较固定,因而可以采取相对比较简单的分析方法。
2棵分析树在句法下一层次的组成分别为:
NP-o(stars)→NP(stars)PP
PP-wadv(with)→P(with)NP
由于组成比较简单,因此,可以直接用下面的条件概率来计算层次组成出现的概率:
(11)
(12)
(2) 确定短语各个组成部分的中心词(头词)。实际上,组成短语的中心子短语的中心词(头词)在上一层次的分析中已经确定,因而,只需确定其他组成部分的中心词(头词):
NP-o(stars)→NP(stars)PP(with)
PP-wadv(with )→P(with )NP(telescopes)
计算这些中心词(头词)出现概率的方法与句子成分的中心词(头词)的计算方法基本相同,也是计算在词性一定且与中心子短语的中心词(头词)等其他词有一定的语义依存关系的条件下词出现的概率。但语义依存关系可能不只1种。在第2棵分析树中,词telescopes在语义搭配上既与其直接的核心词with有关,也与整个句子的谓语核心词saw有关。
设telescopes与词with和saw分别具有语义依存关系rel1和rel2,则经过与(5)式类似的计算可得:
(13)
其中:表示在与词with和saw分别具有语义依存关系rel1和rel2的条件下,词telescopes的出现概率。
为了减少参数较多引起的数据稀疏问题, 式(13)右边的第2个条件概率可使用插值方法计算:
,, (14)
其中:
参数和通过语料训练得到。
1.2.4 短语内部的词的分析
对于直接由词组成的短语,其语法(词性)和语义依存关系的分析可参照上述的分析方法(实际上,上面对with telescopes的分析就是这种情况)。但是,语序对句法分析的结果有一定的影响,在句法成分分析时,因句法成分的数目可能较多,排列顺序既与语法有关,也与语用有关,采用规则的方法解决语序问题;对于短语内部的词的排列顺序,将引入词性标注n元模型来解决。例如,对短语a(ART) good(ADJ) student(N) 的分析,在上述语法(词性)和语义依存关系分析以外,通过如下条件概率来计算排列顺序的可能性:
(15)
与通常的词性标注n元模型不同是:式(15)的计算只在直接由词组成的短语内部进行,而不是在所有相邻词之间都进行计算。
2 实验结果
本文实验在宾州中文树库Chinese Treebank (CTB)5.0上进行。CTB是由语言数据联盟(LDC)公开发布的一个语料库,为汉语句法分析研究提供了一个公共的训练、测试平台。该树库包含了507 222个词,824 983个汉字,18 782个句子,有890个数据文件。将文件301~325(含353个句子和6 776个词) 作为调试集,将文件271~300(含348个句子和7 980个词)作为测试集,其余文件作为训练集。本文的所有实验中,模型的参数都是从训练集中采用极大似然法估计出来的。
测试结果采取了常用的3个评测指标,即准确率P、召回率R和综合指标F。精确率P用来衡量句法分析系统所分析的所有成分中正确的成分的比例,召回率R用来衡量句法分析系统分析出的所有正确成分在实际成分中的比例,综合指标。
实验中采用的句法分析Baseline系统是Daniel M.Bikel基于Collins模型实现的DBParser。表1所示为baseline系统和改进模型的句法分析实验结果。
表 1 句法分析实验结果
Table 1 Experimental results of language parsing
从表1可以看出:由于利用层次分析的思想,在层次分析的不同阶段,根据不同的语法、语义、语用特性采用不同的方法和不同的统计模型, 改进模型的准确率P、召回率R、综合指标F比Collins的头驱动句法分析模型所得结果均有明显提高。
3 结论
(1) 语言特征知识的应用对统计句法分析有很大影响,这从一个侧面指出了汉语统计句法分析研究的一个方向:从语言学角度寻找更多的特征知识。从统计句法分析的角度来看,必须有一个好的计算模型并附有丰富的语言特征知识。
(2) 依存语法分析句子的方式是通过分析句子成分间的语法、语义依存关系,建立以句子成分为节点的依存语法树,以此表达句子的结构,所以,首先要解决的问题是:确定依存语法中句子成分的种类和成分之间的依存关系类型。在统计句法分析中,融入语义知识的模型是研究最多的。
(3) 利用语义、语法等语言知识,建立了一种基于依存关系的分层句法分析统计模型,概率上下文无关语法中由概率的上下文无关性假设和祖先结点无关性假设引起的问题在该模型中得到解决。与头驱动句法分析模型相比, 由于在词的聚类、规则的分解及概率计算中,多层次地利用了语法、语义依存关系等语言知识,改进模型的性能明显提高。
参考文献:
[1] Manning C D, Schutze H. Foundations of statistical natural language processing[M]. London: the MIT Press, 1999: 184-197.
[2] 钟义信. 关于“信息-知识-智能转换规律”的研究[J]. 电子学报, 2004, 32(4): 601-605.
ZHONG YI-xin. A study on information-knowledge-intelligence transformation[J]. Chinese Journal of Electronics, 2004, 32(4): 601-605.
[3] Joshua G. A bit of progress in language modeling[J]. Computer Speech and Language, 2001, 15(4): 403-434.
[4] XUE Nian-wen, XIA Fei, Chiou F D, et al. The Penn Chinese treebank: Phrase structure annotation of a large corpus[J]. Natural Language Engineering, 2005, 11(2): 207-238.
[5] Fung P, Ngai G, Yang Y S, et al. A maximum-entropy Chinese parser augmented by transformation-based learning[J]. ACM Trans on Asian language Processing, 2004, 3(2): 159-168.
[6] Ciprian C, Frederick J. Structured language modeling[J]. Computer Speech and Language, 2000, 14(4): 283-332.
[7] 赵军, 黄昌宁. 汉语基本名词短语结构分析模型[J]. 计算机学报, 1999, 22(2): 141-146.
ZHAO Jun, HUANG Chang-ning. The model for Chinese basenp structure analysis[J]. Chinese Journal of Computers, 1999, 22(2): 141-146.
[8] 刘水, 李生, 赵铁军, 等. 头驱动句法分析中的直接插值平滑算法[J]. 软件学报, 2009, 20(11): 2915-2924.
LIU Shui, LI Sheng, ZHAO Tie-jun, et al. Directly smooth interpolation algorithm in head-driven parsing[J]. Journal of Software, 2009, 20(11): 2915-2924.
[9] Aviran S, Siegel P H, Wolf J K. Optimal parsing trees for run-length coding of biased data[J]. IEEE Transaction on information Theory, 2008, 54(2): 841-849.
[10] ZHOU De-yu, HE Yu-lan. Discriminative Training of the hidden vectors state model for semantic parsing[J]. IEEE Transaction on Knowledge and Data Engineering, 2009, 21(1): 66-77.
[11] Collins M. Head-driven statistical models for natural language parsing[D]. Pennsylvania: The University of Pennsylvania, 1999: 65-78.
[12] 袁里驰. 基于相似度的词聚类算法和可变长语言模型[J]. 小型微型计算机系统, 2009, 30(5): 912-915.
YUAN Li-chi. Word clustering based on similarity and vari-gram language model[J]. Journal of Chinese Computer Systems, 2009, 30(5): 912-915.
[13] 鉴萍, 宗成庆. 基于序列标注模型的分层式依存句法分析方法[J]. 中文信息学报, 2010, 24(6): 14-22.
JIAN Pink, ZONG Cheng-qing. Layer based dependency parsing by sequence labeling models[J]. Journal of Chinese Information Processing, 2010, 24(6): 14-22.
[14] 张育, 王红玲, 周国栋. 基于两种句法分析的语义角色标注比较研究[J]. 计算机应用与软件, 2010, 27(8): 13-16.
ZHANG Yu, WANG Hong-ling, ZHOU Guo-dong. On comparison of semantic role labeling based on two types of syntactic parsing[J]. Computer Applications and Software, 2010, 27(8): 13-16.
[15] 王步康, 王红玲, 袁晓虹, 等. 基于依存句法分析的中文语义角色标注[J]. 中文信息学报, 2010, 24(1): 25-30.
WANG Bu-kang, WANG Hong-ling, YUAN Xiao-hong, et al. Chinese dependency parse based on semantic role labeling[J]. Journal of Chinese Information Processing, 2010, 24(1): 25-30.
[16] 耿向好, 李军辉, 周国栋, 等. 一种基于历史信息的多层次中文句法分析方法[J]. 计算机应用与软件, 2009, 26(6): 45-51.
GENG Xiang-hao, LI Jun-hui, ZHOU Guo-dong, et al. A history-based hierarchical Chinese parsing[J]. Computer Applications and Software, 2009, 26(6): 45-51.
[17] 辛霄, 范士喜, 王轩, 等. 基于最大熵的依存句法分析[J]. 中文信息学报, 2009, 23(2): 18-22.
XIN Xiao, FAN Shi-xi, WANG Xuan, et al. Dependency parsing based on maximum entropy model[J]. Journal of Chinese Information Processing, 2009, 23(2): 18-22.
[18] Seo K J, Nam K C, Choi K S. A probabilistic model of the dependency parse of the variable-word-order languages by using ascending dependency[J]. Computer Processing of Oriental Languages, 2000, 12(3): 309-322.
[19] 李正华, 车万翔, 刘挺. 基于柱搜索的高阶依存句法分析[J]. 中文信息学报, 2010, 24(1): 37-41.
LI Zheng-hua, CHE Wan-xiang, LIU Ting. Beam-search based high –order dependency parser[J]. Journal of Chinese Information Processing, 2010, 24(1): 37-41.
[20] 袁里驰. 基于依存关系的句法分析统计模型[J]. 中南大学学报: 自然科学版, 2009, 40(6): 1630-1635.
YUAN Li-chi. Statistical language paring model based on dependency[J]. Journal of Central South University: Science and Technology, 2009, 40(6): 1630-1635.
[21] GAO Jian-feng, Goodman J, MIAO Jiang-bo. The use of clustering techniques for language model-application to Asian language[J]. Computational Linguistics and Chinese Language Processing, 2001, 6(1): 27-60.
[22] Lee L. Similarity-based approaches to natural language processing[D]. Cambridge: Harvard University, 1997: 35-56.
(编辑 陈灿华)
收稿日期:2011-06-20;修回日期:2011-08-25
基金项目:国家自然科学基金资助项目(60763001);江西省自然科学基金资助项目(2009GZS0027,2010GZS0072)
通信作者:袁里驰(1973-),男,湖南邵阳人,博士后,副教授,从事语音识别与自然语言处理研究;电话:0791-83983891;E-mail: yuanlichi@sohu.com