简介概要

基于条件随机场的地质矿产文本分词研究

来源期刊:中国矿业2018年第9期

论文作者:陈婧汶 陈建国 王成彬 朱月琴

文章页码:69 - 175

关键词:中文分词;地质矿产文本;条件随机场;语料;地质词典;

摘    要:中文与英文不同,词与词之间没有类似空格的天然分隔符,致使中文分词成为中文信息处理中的难题。地质矿产文本中含有大量未登录地质专业术语,现阶段仍无效果较好的分词方法。本文探讨了一种基于双语料库条件随机场模型的方法对地质矿产文本进行分词,并与通用领域分词方法、单语料库条件随机场模型分词方法进行对比实验。实验表明,本文提出的方法在开放测试下分词效果明显优于其他方法,准确率为94.80%,召回率为92.68%,F-值为93.73%。本文对地质矿产文本进行了中文分词研究,既能够很好地识别未登录地质专业术语,又保证了普通词汇的识别率,为对地质领域的自然语言处理工作奠定了基础。

详情信息展示

基于条件随机场的地质矿产文本分词研究

陈婧汶1,2,陈建国1,3,王成彬1,3,朱月琴4,5

1. 中国地质大学地质过程与矿产资源国家重点实验室2. 中国地质大学(武汉)紧缺矿产资源勘查协同创新中心3. 中国地质大学(武汉)资源学院4. 自然资源部地质信息技术重点实验室5. 中国地质调查局发展研究中心

摘 要:中文与英文不同,词与词之间没有类似空格的天然分隔符,致使中文分词成为中文信息处理中的难题。地质矿产文本中含有大量未登录地质专业术语,现阶段仍无效果较好的分词方法。本文探讨了一种基于双语料库条件随机场模型的方法对地质矿产文本进行分词,并与通用领域分词方法、单语料库条件随机场模型分词方法进行对比实验。实验表明,本文提出的方法在开放测试下分词效果明显优于其他方法,准确率为94.80%,召回率为92.68%,F-值为93.73%。本文对地质矿产文本进行了中文分词研究,既能够很好地识别未登录地质专业术语,又保证了普通词汇的识别率,为对地质领域的自然语言处理工作奠定了基础。

关键词:中文分词;地质矿产文本;条件随机场;语料;地质词典;

<上一页 1 下一页 >

相关论文

  • 暂无!

相关知识点

  • 暂无!

有色金属在线官网  |   会议  |   在线投稿  |   购买纸书  |   科技图书馆

中南大学出版社 技术支持 版权声明   电话:0731-88830515 88830516   传真:0731-88710482   Email:administrator@cnnmol.com

互联网出版许可证:(署)网出证(京)字第342号   京ICP备17050991号-6      京公网安备11010802042557号