Depa中文永日念什么么

发表经验总结
&面向非受限领域的综合式自动中文文摘方法
面向非受限领域的综合式自动中文文摘方法
论文服务联系方式
&&&&提供各类专业学术性论文推荐发表,论文指导服务
专业水准,专人一对一服务,快速回应。
&&&&选择我们就等于您选择了放心,流程便捷,铺就您的晋职进步之路。
&&&&24小时咨询热线:400-037-8688&
QQ在线咨询:
中文摘要:讨论了一种面向非受限领域的综合式中文自动文摘方法。其基本思路是:采用向量空间模型对篇章结构进行自动分析,建立基于语义相似度的段落关系图,获取段落的重要度信息,并使用标题或聚类的方法划分意义段;根据词的频度,句子位置、提示语等文本形式特征计算句子的权值,分别从各意义段中选取高权值的句子作为文摘句;对文摘句进行句法和语义分析,消除冗余,解决指代词悬挂、文摘不连贯等问题,最终组成一篇简洁、通顺、可读性好的文摘。
面向非受限领域的综合式自动中文文摘方法郭玉箐, 万 敏, 罗振声
(清华大学 中国语言文学系,北京 100084)
基金项目:国家自然科学基金资助项目()作者简介:郭玉箐(1976-),女(汉),辽宁,硕士研究生。
要:讨论了一种面向非受限领域的综合式中文自动文
摘方法。其基本思路是:采用向量空间模型对篇章结构进行
自动分析,建立基于语义相似度的段落关系图,获取段落的重要度信息,并使用标题或聚类的方法划分意义段;根据词的频度,句子位置、提示语等文本形式特征计算句子的权值,
分别从各意义段中选取高权值的句子作为文摘句;对文摘句
进行句法和语义分析,消除冗余,解决指代词悬挂、文摘不连贯等问题,最终组成一篇简洁、通顺、可读性好的文摘。
关键词:自动文摘方法;向量空间模型;文本形式特征;可
中图分类号:H 08;T P 391. 1
(Depa rtm ent of C hinese L a nguag e a nd L it er atur e,
传统的自动文摘方法主要有机械抽取法[1]和理解文摘法。基于文本形式特征抽取句子的机械法在技术上易于实现,应用领域广泛;但生成的文摘不简洁、不连贯、内容不全面。基于语义理解方法生成的
文摘可读性好,但受语义分析和领域知识的制约,只
能适用于某些特定领域,且详尽的语法语义分析,难度较大,系统效率不高。因此我们采用一种综合式的自动文摘方法:即将文本形式特征作为衡量文章中句子权值的基本方法,以篇章的结构分析替代深层的语义分析,解决机械抽取文摘不全面的问题,在可读性加工阶段引入句法和语义分析,对文摘句进行润色加工,解决文摘不简洁和不连贯的问题。
1 篇章结构自动分析
人们在陈述同一问题时,往往使用相同的词语,因而两个段落的词语在相当大程度上发生重叠时,可认为这两段涉及的是同一个问题,即它们语义相
关。基于这一设想,本文选择向量空间模型(vector
析,确定段落的重要度,实现意义段的划分。
1. 1 段落重要度的计算
在 VSM 中,文章中的每个段落被映射为 n 维空间中的一个节点 P(T 1,W 1;T 2,W 2;…;T n,Wn),其中分量 T k(1≤k≤n)为反映文章内容的特征词, n 为文章所含特征词总数,W k 为特征词 T k 在段落 P 中的出现的次数。同一篇文章中 T k 是确定的,因而段落 P 可简化表示为 n 维特征向量 P(W 1,W 2,…,W n)。两个段落 Pi 和 Pj 之间的语义相似度用它们的相似系数 S(Pi,Pj)表示,定义相似系数为 Pi 与 P j 之间的夹角余弦∑nk = 1 W 2i k ∑.篇章结构自动分析,段落重要度计算的算法为= (Wi 1,W i2,…,Wik)。构造段落相似系数矩阵 P nn,如表 1所示。表 1
段落相似系数矩阵段落号 1 2 … N┆ ┆用顺序排列的 n 个节点表示段落,节点号表示段号。取阈值 Q,对任意的 S(P i,P j)∈Pn n,若 S(P i,与段落 Pi 语义相关的段的数目称为段落 Pi 的相关度,段落的相关度越大,说明其内容覆盖越全面,在全文中的地位越重要。基于以上原则,根据段落的相关度进行排序,按段落相关度大小赋权值。意义段是介于篇章与自然段之间的一个语言单位,它由若干个相邻的自然段构成,在意义上表达一个相对独立的主题。正确地对文章进行意义段划分,
分别从各意义段中抽取文摘句,可以确保生成的文
摘能全面、详略得当地反映文章的各个主题[3 ,4]。
大多数科技文献,具有比较规范的组织结构和各级别标题。标题反映了作者组织文章的思路,对这
类文献,通过对标题的识别,实现意义段的划分。
属于同一意义段的各个自然段描述同一事物或表达同一主题,具有语义联系,因而对于无法使用标题判定意义段的文章,可以通过 V SM 考察段落的相似性实现意义段的划分。通过建立文章的 V SM,
文章中的 n 个段落映射为向量空间中的 n 个点。对
文章意义段的划分可以看成是对这 n 个点的聚类问
题。意义段划分的聚类算法如下:
文章的 V SM;
= 1,2,…,n- 1,并从中选出最小的 m- 1 个作为意义段初始划分边界,将文章分为 m 个初始意义段设意义段 Li 含有文章中连续的 k个自然段,对这 k 个自然段的段落向量求算术平均,作为该意义段的中心向量 c,分别计算 k 个段落与中心向量 c的相关系数,其总和就是该意义段的相聚度 J(Li)。动它们之间的划分界线可以使总相聚度 J 增加,则作出调整;选择了一篇介绍三维计算机动画技术的科技小论文进行篇章结构自动分析测试。全文共有 23 个段落,其中第一段是文章标题,第 2 段是作者,第 4,8,别介绍了几种不同类型的动画技术。第 3 段是原文正文的首段,总述过程动画的概念和分类。
图 1是通过 V SM 得到的文章段落关系图。段
落关系图直观地反映出原文的结构特点,其中第 3段的相关度最大,说明该段在原文中最重要;图中四个连通支对应于原文的 4 个意义段。测试用例是一篇比较典范的文章,各意义段之间用词差别比较明显,基于词语重叠的意义段划分得到的结果很准确。由这篇文章可以看出,使用 V SM 进行文本篇章结构自动分析和意义段划分是比较有效的。
图 1 段落关系图(取域值 Q= 0 . 23)
系统中词语和句子权值的计算依据文本的 4 种形式特征:反映文献内容的特征词出现的频度;文章各级标题中出现的特征词即标题词;引导主题句的提示性短语,如“本文论述”,“综上所述”等;句子位于首段或末段、段首或段尾等特殊的位置信息。通常,一个词在文章中重要程度很大时,这个词往往在文章中出现的频度较高,跨越的段落数较多,或是出现在文章的标题中。根据以上思想,设计词的权值评价函数为其中:W(T)表示特征词 T 的权值,d f 表示 T 在文章中出现的频度,p f 表示 T 的段落频度,μ为加权系数,若 T 为标题词,则 μ> 1,T 为非标题词则μ= 1。由于自然语言具有丰富的表达形式,作者在行
文时可以使用同义词或近义词描述同一事物、表述
同一思想,这些同义词或近义词是相关的,不是完全不同的两个特征词。因此我们在系统中引入同义词
词林,在词林中词的义类用 8位代码表示。根据词的
义类代码可以判定词的相似程度,若两个词的代码完全相同,则认为它们是同义词,合并为一个义类。频度统计以义类为单位,并建立基于义类的 V SM,即将 V SM 从原来的词形空间转换为以语义为基础的义类空间。这种浅层词义信息的引入不涉及领域知识,可适用于任意领域的文章,基于义类的统计方法比简单的词形统计更准确,在一定程度上可以提高文摘句抽取的精确度。一个句子的重要程度和该句含有的特征词、句子所在段落以及具有的形式特征等有关,设计句子权值的评价函数为其中:W(S)表示句子 S 的权值,W(T i)表示 S 中所含特征词的权值,l S 表示句子的长度,μP 为句子所在段落的权值,μS 为 S 的加权系数,若句子含有提示语,或句子位于段首或段尾,则 μS > 1,否则μS= 1。为起强调作用,反映文章中心内容的句子可能在文章中不同位置反复出现,这些句子都很重要,容易同时选入文摘,造成文摘内容重复。因此选择文摘句时,不仅要考虑句子权值的高低,还要考虑句子的新颖度,即同已有文摘句的意义距离。与段落 VSM的相似度计算类似,建立文摘句的特征向量,并计算任意两个文摘句的相似系数,设定一个阈值,相似系数高于该阈值的两个句子认为是意义重复的,只保留其中权值较高的一句,舍弃另一句。另一方面,对抽取的文摘句进行汉语句型自动
分析,通过连词或指代词消除相邻文摘句中重复的
句法成分,使生成的文摘更简洁。机械统计法生成的文摘不连贯,主要由于抽取
文摘句时拆散了句间的内在逻辑关系,如并列、转
折、承接、因果、总述等,造成文摘语义不连贯;或者选择的两个文摘句,不符合习惯的邻接用法。对此我们分别采用以下方法加以解决:的句子具有逻辑关系。若文摘句和原文中相邻的句子同时出现了匹配的关联词,如“因为…。所以…”,表示句子间的联系相当紧密,应保持句间这种关系将相邻的句子补充为文摘句;若只出现一个关联词,根据关联词的类型及句子的重要度进行判断:a)若关联词的关联性较强,且文摘句是关联词侧重的部分,如因果关系
中表示结果的句子,则将原文中与其相邻的句子补
充为文摘句;b)若关联词的关联性较强,而文摘句不是关联词侧重的部分,如因果关系中表示原因的句子,则将该句从文摘句集合中删除;c)若关联词的关联性较弱,如关联词“综上所述”、“也就是说”等,可直接删除关联词,保持文摘句内容不变。利用“汉语句型自动分析与分布统计系统”,对相邻是有一定规律的,有些句型相邻的频度很高,而有些句型几乎从不相邻。因而可对抽取的文摘句进行汉语句型自动分析,根据句型邻接关系统计结果,对句型邻接不符合习惯的句子,进行句型转化,将邻接频度低的句型转化为邻接频度最高的句型。指代词悬挂指选出的文摘句含有指代词,但其指代主体未被摘出,造成文摘理解的困难。消解悬挂指代词的关键是如何从上下文中找出指代词的指代主体。对于这一问题,可从 3个层次上加以解决:通过预制的指代词词典识别文摘中所有的指代
词,并应用规则判别这些词是否真的引起了指代关
系,如“玩他个痛快”中的“他”并不起指代作用。研究表明,在一个句子后半部分出现的指代词,其指代主体往往在本句中,不会带来文摘理解的困难。而在句子第一分句或主语部分出现的指代词,其指代主体通常在前一句中,则本句与前一句形成指代关联,应补充前一句为文摘句组成摘要。若指代关系超出两句,则必须继续向前搜索指代主体。根据语言学的话题理论,指代主体往往是当前话语的主题,依据主题优先原则,我们依次考查承担前文句子主语和宾语的名词或名词性短语以及段落频度和全文频度最高的名词短语,当该名词语义范畴(即表示人物、事物、时间或处所)与指代词所指对象范围一致时,则认为它是指代主体,并以指代主体替换当前文摘句中的指代词。综上所述,在文本形式特征基础上,引入篇章结构分析和浅层句法语义分析,较好地解决了机械抽取文摘的不足,这三者相结合的综合式自动文摘方法在理论上和实用中都是具有一定价值的。
(Ref er ences)
文信息学报,):7 15.
系统设计 [J]. 情报学报, 29.
(in C hinese)
另一方面是提高后级放大电路的精度,例如将一阶高通放大电路改为带通放大,可以进一步的提高系统的抗干扰能力,使后级积分电压更精确。此外,还可以利用一些大规模的可编程器件(例如 ISP等)将数字部分集成进一个芯片中,来达到提高系统集成度和可靠性的目的。该调制光寻线系统及其改型曾在清华大学参加赛(ROBCON)的机器人中得到了应用,并取得了良好的成绩。在实际应用中,该调制光寻线系统具有可靠性高,抗强干扰等突出优点。但同时也暴露了它集成度还不够高,体积大等缺点。相信对其进行一些通用性的改进,该系统可以得到更广泛的应用。
(Ref er ences)
版社,1985.子工业出版社,1992
(U S)T sang W T . Sem iconducto r Optoel ect ro nic Senso r
建科学技术出版社,1987
(in C hinese)
您是否对收录的其它论文感兴趣:
  推荐期刊投稿
本站关键词:|
客服杨老师:QQ:&
客服电话:400-037-0800

我要回帖

更多关于 石人工念什么 的文章

 

随机推荐