1.逆向最大减字匹配算法
取网页芓符串记为s,以标点符号或特有的符号分割方式划分出每一个句子(这些句子不存在歧义或不完整的现象).用s3作为记录划分好的字符串,s3=""<br>
1) 先分析第一个句子,把这个句子记为s1.我们取一个用来划分s1的标准长度值(汉字中一般取四到七个汉字,暂定四个),记这个长度为wlen;<br>
2. 正向最大减芓匹配算法
算法原理与逆向最大减字匹配算法类似只不过取长度为wlen的字符串是从第一个汉字开始,当发现词典表中没有这个词语就去掉最后得一个字,然后重新开始
当这两种算法所得出结果不一致时对不一致的关键词语采用消除歧义算法,最后得出符合原文意思的最佳词语.
比较逆向最大减字匹配算法和正向最大减字匹配算法结果如果不一致,利用词频概率大小对词语重新判定,选择其中的一项结果