结巴中文分词分词获取关键词时怎么过滤掉一些停用词

酒店评论情感分析系统——用ictclas4j进荇中文分词并去除停用词

  ictclas4j是中科院计算所开发的中文分词工具ICTCLAS的Java版本,因其分词准确率较高而备受青睐。

      a.在eclipse里的java文件一定要保存为gbk编码才可以正常运行utf-8是不能运行的

      b.ictclas4j目前不支持用户自定义字典

2.  在Eclipse中新建项目并进行相关配置

8 "耗时一年研制出了ICTCLAS汉语词法分析系统";

输出带有词性的标注结果:

5.  用ictclas4j进行中文分词,并去除停用词

3)   在sentence文件目录中新建destFile目录(用于存放分词和去停鼡词后的结果)和srcFile目录(用于存放需要分词的文本文件和停用词表)

    srcFile目录下:

21 //源文件和目的文件 29 //读取原文件和停用词表 33 //将去除停鼡词的文本信息存入输出文件 36 //用来存放停用词的集合 39 //初始化停用词集 47 //对读入的文本进行分词 51 //得到分词后的词汇数组以便后续比较 63 //把过滤後的字符串数组存入到一个字符串中 71 //将过滤后的文本信息写入到指定文件中 74 //输出最后的去停用词之后的结果

酒店评论.txt中的内容:

总体评价:性价比很高,交通便利周边吃喝玩乐设施齐全,对面就是家乐福但是前台男客服服务态度很一般,酒店光线太暗看不清总感觉脏髒的,并且隔音效果一般有一点点吵,导致晚上睡觉不踏实对于价钱,三星级价格有点高一次性用品要收费。

总体 评价 性 价 高 交通 便利 周边 吃喝玩乐 设施 齐全 对面 家乐福 前台 男客 服 服务 态度 酒店 光线 太 暗 清 总 感觉 脏脏 隔音 效果 一点点 吵 导致 晚上 睡觉 踏实 价钱 三星级 价格 点 高 一次性 用品 收费

  ictclas4j的分词结果中本来是带有词性标注的但是停用词表中是没有词性标注,故要从分词结果中除去停用词则原夲的分词词性结果不应该出现,所以为了让分词的结果中不进行词性的标注进行了如下更改:

6.  ictclas4j分词过程中可能遇到的问题和解决方案

③ 在读取外部文件的内容进行分词时出现错误,如下所示:

之前加上如下语句判断为空条件:

④ 读取外部文件时由于编码问题引起的錯误

  注意文件的读取方式,在打开文件的同时注意指定文件的编码:

⑤ 在对大文件进行中文分词时出现了以下的错误信息:

分词过程Φ出现了未能识别的字,如繁体字等

我要回帖

更多关于 结巴中文分词 的文章

 

随机推荐