基于字符级特征的日文依存句法自动分析算法

来源期刊:中南大学学报(自然科学版)2009年第4期

论文作者:文益民 赵 海 李 健 黄晗文

文章页码:1035 - 1039

关键词:计算机应用;依存句法分析;字符级特征

Key words:computer application; dependency parsing; character-level feature

摘    要:基于字符在词位的特定性位置能起标志性作用,使用反映日语的语言倾向性的特征分析依存句法,给出基于字符级特征的依存句法自动分析算法。该算法使用词首的头2个字符、词尾的最后1个字符以及词尾的最后2个字符这3种类型的字符级特征加强分析器的学习。采用第1种类型的特征,反映日语的词汇形态特点,采用后2种类型的特征,则部分反映了日语表达重心后置的语言特性。在CoNLL-2009日语语料库上进行实验以及进行实际评估,结果表明:与基线特征相比,该算法有效地提高分析器的UAS指标(即无标记依存关系的正确率)和LAS指标(即考虑带标记的依存关系的正确率),大大提高分析器的竞争力。

Abstract: Based on the indicative impact of character located at a special position in a word, an algorithm was proposed to make use of character-level features that reflect the characteristics of Japanese to enhance the performance of Japanese dependency parsing. Three character-level features denoted by the first two characters, the last character, and the last two characters inside a word were adopted. The first type of features was used for the morphological purpose, and the latter two demonstrate that the emphasis in Japanese trends to locate at the end of an expression segment in the sentence. The results of experiments and evaluation on the Japanese corpus from CoNLL-2009 shared task show that the accuracy of Japanese dependency parser can be effectively improved by using the proposed features.

基金信息:国家“863”计划项目
国家自然科学基金重点资助项目
湖南省博士后科研资助专项计划项目
湖南省教育科学“十一五”规划课题

有色金属在线官网  |   会议  |   在线投稿  |   购买纸书  |   科技图书馆

中南大学出版社 技术支持 版权声明   电话:0731-88830515 88830516   传真:0731-88710482   Email:administrator@cnnmol.com

互联网出版许可证:(署)网出证(京)字第342号   京ICP备17050991号-6      京公网安备11010802042557号