词性标注名词解释的研究方法有哪些?

【摘要】:翻译系统的性能与语料库规模是密不可分的,语料库质量也直接影响到最后的翻译结果。因此自动词性标注与词干提取作为创建标注语料库中的基础性工作具有非常重大的研究意义。维吾尔语自然语言处理研究中维吾尔语自动词干提取和词性标注是跟上述一样必不可少的一部分,本文中为了提高基于MOSES的维汉双向统计机器翻译的翻译质量,必须扩大标准的维汉平行语料库的规模,然后机器翻译训练集、开发和测试集中加词性标注和词干提取。此外维吾尔语词性标注和词干提取研究工作开始到现在不同人用不同的方法来实现,但是结果并不理想。在本文中分别引用了基于Morfessor的词干提取算法和基于条件随机场域(CRF)的词性标注方法。分别介绍CRF和Morfessor的原理并对其进行实验。为搜集语料本文开发了一个基于WEB的维哈柯多语种网上数据采集工具,本文90%的实验数据都是由此工具得到;由于CRF和Morfessor都对开发集和测试集的数据格式有严格要求,因此本文开发了两个预处理软件。本文通过在CRF中修改模版文件,并在LINUX平台上不断做实验,最后得到词性标注模型并调用该模型开发出自动词性标注系统。在Morfessor中必须大量的数据上做实验训练出最好的词干提取模型,只调用此模型进行词干提取不能解决维吾尔语中的元音弱化、脱落等问题。因此本文利用处理以上问题的算法于该模型结合开发出自动词干提取系统;最后测试结果显示本系统的维吾尔语自动词性标注准确率达到了89.73%,自动词干提取准确率达到了86.80%。基于以上研究成果本文的基于MOSES的维汉双向统计机器翻译的BLEU分也从原来的23.42提高到目前的25.38;

【学位授予单位】:新疆大学
【学位授予年份】:2015


李向阳,张亚非;[J];解放军理工大学学报(自然科学版);2004年02期
魏欧,孙玉芳;[J];计算机研究与发展;2000年04期
周雅倩,郭以昆,黄萱菁,吴立德;[J];计算机研究与发展;2003年03期
刘群,张华平,俞鸿魁,程学旗;[J];计算机研究与发展;2004年08期
李振星,徐泽平,唐卫清,唐荣锡;[J];计算机工程与应用;2002年11期
姜维;关毅;王晓龙;;[J];计算机工程与应用;2006年21期
张庆扬;柴胜;;[J];计算机工程与应用;2009年19期
刘启和;詹思瑜;杨国纬;;[J];计算机科学;2003年09期

【摘要】:兼类词的词类排歧是汉语语料词性标注中的难点问题 ,它严重影响语料的词性标注质量。针对这一难点问题 ,本文提出了一种兼类词词性标注的自动校对方法。它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息 ,自动生成兼类词词性校对规则 ,并应用获取的规则实现对机器初始标注语料的自动校对 ,从而提高语料中兼类词的词性标注质量。分别对 5 0万汉语语料做封闭测试和开放测试 ,结果显示 ,校对后语料的兼类词词性标注正确率分别可提高 11 32 %和 5 97%。


支持CAJ、PDF文件格式,仅支持PDF格式


周文欢;郭大进;李兴海;;[J];公路交通科技;2011年04期
姜维;关毅;王晓龙;;[J];计算机工程与应用;2006年21期
李成城;白涛;赵述芳;钟义信;;[J];计算机应用研究;2006年04期
张一哲;曲维光;刘金克;孙玉霞;;[J];南京师大学报(自然科学版);2010年04期
张禄彭;易绵竹;周云;;[J];中文信息学报;2012年04期
才让卓玛;才智杰;;[J];西北民族大学学报(自然科学版);2009年01期
中国博士学位论文全文数据库
中国硕士学位论文全文数据库
李晓黎,史忠植;[J];计算机研究与发展;2000年12期
朱靖波,姚天顺;[J];计算机研究与发展;1999年05期
向毅;王成敏;;[J];重庆科技学院学报(自然科学版);2008年04期
钱揖丽,郑家恒;[J];电脑开发与应用;2004年01期
徐延勇,周献中,井祥鹤,郭忠伟;[J];电子学报;2003年11期
李晓黎,刘继敏,史忠植;[J];计算机学报;2001年01期
史长琼;黄辉;王大卫;姜腊林;扶宗文;;[J];计算机应用研究;2009年12期
王成敏;;[J];四川理工学院学报(自然科学版);2009年02期
中国重要会议论文全文数据库
陈文亮;朱靖波;吕学强;姚天顺;;[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库
李晓黎;[D];中国科学院研究生院(计算技术研究所);2001年
李素建;[D];中国科学院研究生院(计算技术研究所);2002年
中国硕士学位论文全文数据库
吴惠雄;[D];中南林业科技大学;2009年
穗志方,俞士汶;[J];北京大学学报(自然科学版);1998年Z1期
龚汉明,周长胜;[J];北京机械工业学院学报;2004年03期
董革非;[J];东北大学学报(社会科学版);2004年06期
杜永萍,郑家恒;[J];电脑开发与应用;2001年10期
中国硕士学位论文全文数据库
魏莉;谭红叶;郑家恒;孙健;;[J];广西师范大学学报(自然科学版);2010年01期
邢富坤;宋柔;罗智勇;;[J];中文信息学报;2010年01期
张一哲;曲维光;刘金克;孙玉霞;;[J];南京师大学报(自然科学版);2010年04期
孙显斌;李伟;;[J];图书馆理论与实践;2012年08期
于江德;周宏宇;余正涛;;[J];山东大学学报(工学版);2011年06期
冯敏萱;曲维光;;[J];山东大学学报(工学版);2011年06期
于江德;周宏宇;余正涛;;[J];山西大学学报(自然科学版);2011年04期
夏静;柴玉梅;昝红英;;[J];计算机工程与设计;2013年02期
邓箴;包宏;;[J];西安石油大学学报(自然科学版);2009年01期
中国重要会议论文全文数据库
邢富坤;宋柔;罗智勇;;[A];中国计算机语言学研究前沿进展()[C];2009年
中国博士学位论文全文数据库
中国硕士学位论文全文数据库
乔剑敏;[D];北京信息科技大学;2010年
张五辈;[D];沈阳航空航天大学;2011年
钱揖丽,郑家恒;[J];电脑开发与应用;2004年01期
牛洪梅;吐尔根;伊不拉音;;[J];微型电脑应用;2006年12期
牛洪梅;加米拉·吾守尔;吐尔根·依布拉音;;[J];伊犁师范学院学报(自然科学版);2007年01期
王素格,张永奎;[J];计算机工程与应用;2001年05期
中国重要会议论文全文数据库
王洁;荀恩东;宋柔;;[A];第二届全国学生计算语言学研讨会论文集[C];2004年
曲维光;;[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
陈肖霞;王霞;;[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
牛洪梅;吐尔根.伊不拉音;;[A];第三届学生计算语言学研讨会论文集[C];2006年
诺明花;张立强;刘汇丹;吴健;丁治明;;[A];第五届全国青年计算语言学研讨会论文集[C];2010年
蒋宏飞;曹海龙;杨沐昀;;[A];第二届全国学生计算语言学研讨会论文集[C];2004年
郭慧志;谢学敏;张普;;[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
刘亚斌;李爱军;;[A];第六届全国人机语音通讯学术会议论文集[C];2001年
中国重要报纸全文数据库
温端政;[N];中国社会科学院院报;2003年
西南大学文学院 肖梅旎;[N];学知报;2011年
陈劲宏;[N];中国电脑教育报;2002年
记者 吕诺;[N];新华每日电讯;2006年
本报记者 姚从权;[N];中国社会科学院院报;2004年
通讯员 侯晓斌;[N];中国社会科学院院报;2006年
中国博士学位论文全文数据库
赵世奇;[D];哈尔滨工业大学;2009年
赵晖;[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库
李萨日娜;[D];内蒙古师范大学;2011年
摘 要:针对传统的HMM模型在词性标注中具有对兼类词及其对应词类标注能力差和模型差异大的缺点,提出一种利用混合BP-HMM词性标注模型进行词性标注算法。该算法通过BP网络优秀的甄别能力有效的弥补了HMM在对兼类词进行标注方面的不足,同时也利用HMM增强了BP网络的建模能力。实验结果表明,该模型相比传统的HMM以及BP网络模型,建模能力、分类性以及适应性都得到很大的增强,准确率也得到了2%0~7%的提高。

我要回帖

更多关于 词性标注 的文章

 

随机推荐