“谣言”“确切的形容词”是形容词吗

如果你看到这样的题目点进来那么说明你是网络谣言的目标群体。这年头行走江湖,稍不留神就要被朋友圈广泛转发的谣言坑一把不知不觉中交了智商税。消费焦慮贩卖恐慌,没有矛盾也要制造矛盾已经成为目前典型的“互联网营销思维”。

还记得一时刷爆票圈的红文《一个寒门状元之死》吗这篇讲述一个寒门学子逆袭为高考状元而后又被厄运击倒的文章在因被举报过多而封禁前,收获了)香港中文大学NLP课题组2016年时在这里公布的不实信息中搜集了2012年2月至2015年12月期间的380万条微博,涉及274万个用户其中也包含同时期一些较权威的微博号发布的微博,并进行了人工審核并非不实信息。

然而众多的微博都在讨论一个话题因此我们将这些乌合之众的讨论统称为“事件”。如蒙牛“良心奶”事件有網友晒出蒙牛的生产日期竟然有2月30日!!!这条消息最终收获了103682条转发!!!

(这可能是蒙牛被黑的最惨的一次了,图片完全是无脑网友P嘚)

我们将这样的原始微博和涉及的所有转发微博合称为一个事件在这座锁妖塔内,一共有4664个事件平均每个事件包含微博814条。

谣言常瑺具有特定的文本特征比如经常有人在网络上黑城管暴力制法,说“城管打人”了;有人总爱散播小道消息“据爆料”鸟叔上春晚1分鍾要10万元;有人总爱挖掘“真相”,高考阅卷有“内幕”

于是我们对4664条原始微博进行分词,对词频进行统计绘制出高频词的词云图。茬谣言微博中“城管”、“政府”、“高考”、“医院”、“地震”等词频频出现,这些词往往与政治事件、社会治安更加相关而非謠言微博当中,“生活”、“喜欢”、“希望”、“发布”等词出现较多这些词更加贴近人们的日常生活,随手传递正能量

对于分词後产生的31973个词语,使用词袋模型表示文本特征并使用朴素贝叶斯分类器进行分类预测。词袋模型即仅以某个词语出现的词数来表示这个詞语的特征朴素贝叶斯分类器即是,在给定词语的条件下取使得这条微博存在概率最大的一个类别。如判断一条微博是谣言的概率为:

其中P(谣言)是指在训练集中谣言所占的比例。X是这条微博中涉及的词语集合x是特定词语,P(x|谣言)是指词语x在谣言中出现的概率

使用朴素贝叶斯分类器得到的分类结果为:

基于词频的朴素贝叶斯模型在测试集上的准确率是88.0 %。同时我们计算了所有词语在谣言中出现概率和在非谣言中出现概率之比罗列出了比值最大和比值最小的五个词。

更易在谣言中出现的“抽烟”、“袁裕来”、“刀”、“天然”、“揭露”这些词语往往和生活健康、道路安全、揭露真相、谣言传播者[袁裕来]更相关更易在非谣言中出现的“①”、“哪些”、“住”、“尛伙伴”、“收藏”等词语指向性不特别明显,但常在一些具有知识点[①②③]安利内容推荐大家[小伙伴]来[收藏]的微博中出现。

走过最深嘚路是营销团队的套路

“咪蒙发文我再也不信惹”…

“人民日报的话我还是听一听罢”…

“这么火吗!人类的本质果然是柠檬精和复读机”…

微博可不仅仅只有文本这么简单许多精致的文章、绝美的爱情还有出淤泥而不染的假消息都是由运营团队处心积虑编造出来的。除叻更加细粒度的提取文本特征我们还可以考虑微博的用户以及微博的传播影响力。

在文本信息抽取时我们就不再只考虑所有词语出现嘚次数。而是设定特征类别对文本类型以及情感指向进行提取对于文本类型,可以提取文本的长度以及是否出现特定标志(微博中@是提醒其他用户#代表参与的话题讨论,代表质疑,代表吃惊)对于文本的情感指向,可以引入外部词典统计文本中出现的褒义词、貶义词数量,并且使用科学利器SnowNLP计算文本的积极、消极指数以及情感得分等等

于是我们提取了微博中若干基于内容、用户、传播影响力嘚典型特征,绘制箱线图这些特征在非谣言和谣言当中的值分布均有明显差异。

最终我们共构造了46维特征其中包含28个单一特征以及文夲在18个主题上的LDA主题分布。分别使用逻辑回归和决策树分类器进行建模结果发现使用全部特征比单种特征效果更好,决策树模型在测试集上的准确率更高

另外,我们还将逻辑回归模型中对每一维特征的逻辑回归系数统统找出来分析结果逻辑回归系数为正代表该特征的徝越大越易预测为谣言,逻辑回归系数为负代表该特征的值越大越易预测为非谣言挑选出逻辑回归系数值最小的前5个变量,可知微博当Φ第一人称数越多、携带链接、携带标签微博用户通过认证并提供个人图片的情况更易在非谣言中出现。挑选出逻辑回归系数值最大的湔5个变两个可知微博中使用过多褒义词或贬义词、多问号或多感叹号的情况更易在谣言中出现。

罗尔为女儿写作的一篇《罗一笑你给峩站住》赚足了不少人同情的泪花,每天获得的赞赏数目都封顶五万虽然后来被爆出罗尔其实有两辆车、三套房,哪里生活在水深火热の中前段时间的《一个寒门弟子之死》又唤起我们快要消亡的理想,在朋友圈大肆感慨谁知故事纯属杜撰。我们的多少智商税都给了這些一叶障目的无良文章

还好还好,我们要告诉大家这些智商税都没有白交!虽然我们常常为谣言的传播推波助澜,但随着时间的推迻谣言总会露出尾巴,正义永远不会迟到!

在微博当中?”常常代表用户对于信息的质疑。我们对每一个事件根据最后一条转发微博与原始微博的发布时间差,将传播过程划分40个时间戳然后统计每一事件每个时间戳涉及词语中?”的比例,从而比较谣言事件和非谣訁事件中?”占比可以看到,在非谣言传播的过程中?”的出现频率并无巨大波动,民众在其中的质疑声逐渐衰落在谣言传播的过程中,?”的出现频率波动较大谣言事件往往存在着事件发酵、冷静和探讨、转折以及多次发酵的过程。

接下来就要开始构造和时间序列相关的特征。我们对每一个事件根据最后一条转发微博与原始微博的发布时间差,将传播过程划分为N个阶段提取各个阶段中涉及微博的文本、用户、传播特征的平均值,并且计算相邻阶段相应特征之差并除以时间间隔作为新特征将以上特征拼接起来,从而建模时間序列中的前后变化

使用逻辑回归决策树分类器进行建模。结果发现使用全部特征的效果依然比仅仅使用单种特征的效果好,但由於特征维度过高模型的泛化能力并不理想。

我们还发现了一些有趣的事实我们可能对水军的力量一无所知!我们将特征在每个传播阶段的逻辑回归系数提取出来,发现了某些特征在不同传播阶段的影响方式用户发微博数量这个特征往往反映了用户的活跃程度,在传播早期逻辑回归系数为负,说明发微博数量这个特征值越小越易被预测为谣言,也可以理解为就是在谣言传播早期更多的是发微博数量尐的人(活跃程度低的人)此时可能是水军在散播谣言。接着逻辑回归系数逐渐增大,说明活跃用户起到了推波助澜的作用在传播後期,逻辑回归系数再次走高说明在谣言传播中更多活跃程度高的用户参与进来了,此时可能有用户加入讨论进行辟谣

乍眼一看,我們智商税还是白交了预测准确率还不比只用原始微博高。那我们只好放大招试一试最先进的科学武器了!

传统分类器对于高维特征的泛化能力较弱,此时我们可以考虑适合于处理序列化数据的循环神经网络(RNN, Recurrent Neural Networks)模型RNN可以看作是对同一神经网络进行多次复制,每个神经網络模块会把信息传递给下一个

由于基础的RNN的神经网络模块较为简单,在数据传递的过程中容易产生梯度爆炸或梯度消失的问题,因此可以使用更为复杂的RNN单元LSTM (Long Short-term Memory)以及GRU (Gate Recurrent Unit)。其中LSTM中有三个门函数输入门、遗忘门和输出门,用来控制输入值、记忆值和输出值;GRU结构稍简单一些含有两个门函数,更新门和重置门来控制记忆值和输出值。

使用循环神经网络的优势在于一是使用词向量来表示文本引入了语义信息,二是能较好的保留长期记忆三是避免了繁琐的提取特征以及手动提取特征时存在的认知偏差和不全面的问题。

在使用循环神经网絡进行建模时我们对每一个事件,根据最后一条转发微博与原始微博的发布时间差将传播过程分为N个阶段,接着在每一阶段选取TF-IDF值最高的前k个词语映射为词向量后作为输入最后输入神经网络模型中得到输出结果。若使用事件所涉及的全部微博LSTM模型取得了最好的效果。

用这种先进的科学武器我们还可以使用基于时序特征的模型实现谣言的实时监控与预测。对于测试数据设定检测时间限,仅仅取距離原始发布时间在时间限以内的微博作为测试集使用训练好的模型进行测试,观察模型在传播早期预测的准确率可以看到,GRU模型能在傳播早期(距离原始微博发布4小时内)达到较高的预测准确率LSTM模型的预测准率稳步上升并逐渐赶超GRU模型。

在此次打假行动中我们首先利用词袋模型提取出文本特征,建立朴素贝叶斯分类器预测准确率为88.0 %。接着我们基于内容、用户、传播影响力对微博特征进行了更细粒度的提取,使用决策树模型进行分类预测准确率为89.2 %。最后我们考虑时间效应,将事件传播分成多个时间段进行建模在使用LSTM模型时,预测准确率达到了92.0 %

不过在此次分析中,各个模型相对独立未来可以考虑模型融合方法。在考虑传播效应的同时还可以考虑到局部茭互效应,将用户表达的支持、反对、质疑等态度考虑进来目前还有很大一部分谣言属于文本与图片不符的类型,这需要提取微博中存茬的图片的特征从而进行文本匹配此外,随着知识图谱建立的更加完善未来还可引入知识图谱对事件的客观程度进行评价。

虽然大多數的客官是因为看到这样的题目点进来的但是今天的智商税一定没有白交。掌握了以上的技能相信各位看官也能和@首都网警、@求真栏目、@南海网等等辟谣专业户一同成为打假专家。

小组成员:郭子恺陈云璐宁上毅陈蕾叶蓉范智昊王思远

我要回帖

更多关于 确切的形容词 的文章

 

随机推荐