不掉线的看剧网程序一打开就停止工作停止正常工作怎么解决



在线用户生成内容(UGC)数量的快速增长需要社交媒体公司自动从照片和视频中提取知识结构(概念)以提供多样化的多媒体相关服务然而,真实世界的照片和视频是复雜和嘈杂的从多媒体内容中提取语义和情感是一项非常困难的任务,因为合适的概念可能会以不同的表示形式呈现因此,为了更好地悝解最好从多个模态分析UGCs。为此我们首先介绍 EventBuilder系统,它处理语义理解并通过利用不同的社会媒体(如Wikipedia和Flickr)实时自动生成给定事件的多媒體摘要。随后我们提出 EventSensor 系统,该系统旨在解决情感理解问题并为给定的情绪生成多媒体摘要。它从UGCs的可视化内容和文本元数据中提取概念和情绪标签并利用它们支持一些重要的多媒体相关服务,如音乐多媒体摘要此外,EventSensor 利用 EventBuilder 作为语义引擎组件支持基于情感的事件摘要。实验结果表明EventBuilderEventSensor 均优于其基线,并有效地总结了YFCC100M数据集上的知识结构

近年来,由于智能手机数码相机和一些网络设施的普及,UGCs(例如照片和视频)的数量急剧增加 最近一个有趣的趋势是,诸如Flickr和YouTube之类的社交媒体公司不是自己制作内容而是为用户创造生成多媒体内容的机会。 因此随时随地捕获多媒体内容,然后立即在社交媒体平台上共享它们已成为流行 由于UGCs 属于不同的有趣事件(例如节ㄖ,游戏和抗议活动)因此它们已成为人类日常生活中不可或缺的一部分。
举例来说在非常受欢迎的照片共享网站Instagram上,到目前为止已仩传了超过十亿张照片此外,该站点每月有4亿活跃用户[1]但是,由于以下原因很难从多媒体内容中自动提取知识结构:
(i)难以捕获UGCs嘚语义和情感,
(ii)文本元数据中存在噪音
(iii)处理大型数据集的挑战。
首先针对语义理解和总结多媒体内容的知识结构,我们在较早的工作中提出了系统[2]它使用户能够从大型多媒体集合中自动实时获取给定事件的多媒体摘要(见图1)。
该系统利用如Wikipedia和Flickr之类的社交媒體平台的信息来提供事件的有用摘要由于此早期工作主要关注于实时演示,因此其性能评估受到限制因此,在这项研究中我们来自Flickr嘚1亿张照片和视频进行了EventBuilder的拓展实验,并将结果与??基线进行了比较在基线系统中,我们选择在元数据中包含输入事件名称的照片(唎如:说明标题和标签)。实验结果证明该算法有效地总结了知识结构,并优于基线接下来,我们描述我们的方法如何解决上述问題

技术的进步使移动设备能够结合UGCs收集大量的上下文信息(例如,空间时间和其他敏感数据)。我们认为UGCs的多模态分析对于语义和凊感理解非常有帮助,因为多媒体内容通常是非结构化的并且很难仅通过一种模态有意义地访问。由于多模态信息通过从非结构化的多媒体内容和上下文信息中推断出语义来增强知识库因此我们在 EventBuilder 系统中利用了它,它具有以下三个新颖的特征:
(i)利用Wikipedia作为事件背景知識来获取有关输入事件的其他上下文信息
(ii)通过各种社交媒体活动实时可视化一个有趣的事件;
(iii)通过解决优化问题,根据照片和Wikipedia攵本的描述为事件生成文本摘要

接下来,为了理解情感并从多媒体集合中生成基于情感的多媒体摘要我们在本研究中引入 系统。此外EventSensor 利用 EventBuilder 作为其语义引擎来生成基于情感的事件摘要。 EventSensor 利用来自 UGCs 的多模态信息进行情感分析它从照片的视觉内容和文本元数据中提取概念,并利用它们来确定照片的情感细节概念是一种知识结构,可提供有关情感的重要线索例如,概念 “grow injunction)是由Poria等人[3]提供的语义解析器根據文本元数据(例如描述和标签)计算出来的视觉概念是通过使用卷积网络从照片和视频的视觉内容中派生的标签,该网络指示诸如人建筑物,食物和汽车之类的概念的存在 YFCC100M数据集中所有照片的视觉概念均作为元数据提供。在此基础上我们提出了一种新颖的算法,鼡于融合从文本和照片的视觉内容衍生的概念(请参见算法1)
随后,我们利用现有的知识库(例如SenticNet-3EmoSenticNet,EmoSenticSpace和WordNet)确定照片的详细情感信息這些知识库可帮助我们构建一个能够提供基于情感服务的情感引擎。例如在我们的系统中,情感引擎用于生成与情绪相关的配乐(请参見图2)
与多媒体内容中的情感相匹配的基于情绪的声音是非常重要的方面,并且在观看视频时非常有助于提高视频的吸引力因此,与沒有有趣声音的普通幻灯片相比具有匹配配乐的视频在社交媒体网站上的观看和共享更具吸引力。这激励人们通过向照片添加匹配的配樂来创建此类音乐视频并在社交媒体上共享它们。但是由于以下原因,在照片中添加配乐并不容易

  • 首先,一般来说用户将自定义配乐添加到来自UGCs的大量照片中是繁琐,耗时且不易扩展的
  • 其次,很难自动提取照片表达的情感
  • 最后,重要的一点是良好的音轨应该匹配并增强照片的整体氛围,并满足用户的喜好

因此,这需要构建一个摘要系统通过向照片添加匹配的配乐来提升多媒体摘要的体验。为此我们介绍了 EventSensor 系统,该系统根据照片的已确定的情绪来生成音乐多媒体摘要(具有匹配音轨的照片幻灯片)


图3显示了我们的情感引擎的框架。它更好地提供了多媒体内容的语义和情感分析为了确定多媒体内容中的情绪信息,我们的系统利用了以下知识库中的知识結构

  • SenticNet-3是用于概念级别情感分析的公共可用资源[4]。它由30,000个常识和常识概念 C 组成例如食物,党派和 完成的目标而且,它把每个概念关联箌: C 中其他五个语义相关的概念 和 如情感沙漏模型[5]中所述的包含愉悦注意力,敏感性天分和极性的情感学信息
  • C13,000个概念映射到情感標签例如愤怒,厌恶喜悦,悲伤惊讶和恐惧。为了有效地理解情感必须了解其余的SenticNet-3概念的情感标签[6]。 C中的每个概念提供100维的向量涳间以便基于邻居投票来确定丢失的情感信息(见图4)。我们使用余弦相似度度量为每个概念确定100个邻居
  • 此外,我们使用WordNet库来利用不哃单词的语义细节


此外,我们使用Poria等人提供的语义解析器对照片的文本元数据进行语义分析以提取知识结构(文本概念),以便更好哋理解[3](见图3)该解析器根据子句之间的依赖关系将自然语言文本解构为概念。为了利用这种知识结构来确定照片的情感细节我们提絀了一种算法,用于在确定的(视觉和文本)概念与 C之间建立关联(见算法2)所提出的情感引擎对于提供基于情感的多媒体相关服务中非常有用。
文章剩余部分组织如下:第二部分是相关工作;第三部分描述了 EventBuilderEventSensor 两个系统;第四部分是效果评估;第五部分是文章总结

我們的目的是自动从社交媒体生成多媒体内容的摘要。此过程的步骤可以描述如下:
(i)从所有照片和视频中识别事件和情感
(ii)基于语義分析生成给定事件的摘要,
(iii)基于情感分析生成摘要
在本节中,我们简要介绍事件检测和摘要语义和情感分析以及多媒体内容的配乐推荐方面的最新进展。

在过去的几年中在事件建模,检测和多媒体理解领域已经取得了重要的工作[7-9]较早的方法[10-12]利用多模态信息(唎如用户标签,空间和时间信息以及多媒体内容)来自动检测来自大量多媒体内容(例如Flickr)的事件 Fabro等人[13]提出了一种算法,用于基于社区貢献的多媒体内容(使用Flickr的照片和YouTube的视频)汇总现实事件摘要他们通过将生成的摘要与报告相应事件的Wikipedia文章进行比较,评估了所生成摘偠的覆盖范围由于维基百科被认为是全面的知识源之一,因此我们在事件摘要系统中也充分利用了它 Long等[14]提出了一个统一的工作流,用於对Twitter等微型博客数据进行事件检测跟踪和汇总。他们从微型博客数据中选择主题词利用其特征进行事件检测。此外Filatova和Hatzivassiloglou [15]提出了一系列基于事件的特征,这些特征基于tf-idf得分来产生事件摘要在我们 EventBuilder [2]的早期工作中,我们利用了这些基于事件的特征[15]来生成给定事件的文本摘要在该研究中,我们对 EventBuilder 进行了评估并根据 准确率,召回率F值和余弦相似度等指标与基线系统进行了比较。 Naaman [16]提出了一种用于社交媒体应鼡程序一打开就停止工作以搜索和挖掘多媒体数据的方法

接下来,我们回顾情感分析领域该领域试图根据从视觉内容和元数据中展示嘚概念来确定多媒体内容的情感细节。 在过去的几年中在情感分析领域做出了重要的贡献[17-20]。 情感在个性化搜索检索和推荐系统中非常囿用。 Cambria等人[4] 提出了SenticNet-3它弥合了 词级自然语言数据与它们所传达的概念级观点和情感之间 在概念以及情感上的鸿沟。 他们还提出了AffectiveSpace-2 来确定概念的情感直觉[21] Poria等人[22] 提出了用于多模态情感数据分析的智能框架。 利用上述知识库我们可以从多媒体内容中确定情感细节。

接下来我們回顾多媒体内容的配乐推荐领域。 多媒体内容的配乐推荐领域在很大程度上尚未开发 早期的方法[23,24]为照片的幻灯片添加配乐。 但是他們主要关注低级视觉特征。 有几种方法[25-27]可以识别视频中的情感但是视频的配乐推荐领域[28,29]尚待开发。 Rahmani等人[30] 根据背景信息(例如用户的喜好电影评论,电影的演员和导演)提出了基于上下文的电影推荐技术。 由于我们的工作主要是确定多媒体内容的情感细节(情绪标签)因此我们从现有的带有情绪标签的音乐数据集中随机选择与确定的情绪标签相对应的音轨[31](有关详细信息,请参见第4节)

图1展示了 EventBuilder 系統的系统框架,该系统通过两个步骤为事件生成多媒体摘要:
(i)执行离线事件检测
(ii)生成在线事件摘要
e,它通过组合来自不同模态嘚置信度得分来计算相关性得分如下所示: 是不同模态的权重,使得 ξλγμρ 是给定 e 关于事件名称,时间信息空间信息,關键字和相机模型 的相似函数如[2]中所述。在对事件检测的开发集进行初步实验之后我们设置以下权重: 。我们会根据启发式方法为相機模型分配总得分的5%这种启发法是:好的相机会捕获质量更好的多媒体内容,从而更好地呈现事件将所有相似性分数,阈值和其他汾数归一化到区间 [01]。

EventBuilder在在线处理过程中针对给定的事件和时间戳生成两个文本摘要:

首先EventBuilder 从文本元数据中提取重要的概念(例如,kid-play-holi對于一个名为Holi的事件)。

图2描述了EventSensor系统的体系结构它由两个部分组成:

图3显示了 EventSensor 系统中的情感引擎的系统框架。情感引擎有助于从聚合茬社交媒体上的多媒体内容向用户提供与多媒体相关的重要服务它利用多模态信息来执行情感分析,这有助于提供与情绪相关的服务具体来说,我们从 UGCs 的视觉内容和文本元数据中利用概念(知识结构)我们为数据集的每个多媒体项目提取视觉概念,并使用语义解析器API [3]從多媒体内容的文本元数据中计算概念接下来,我们将融合提取的视觉和文本概念如算法1中所述。我们提出了一种新的融合算法该算法基于不同元数据在确定一组60张照片的UGCs情感信息中的重要性。(请参阅第4.2节)此外,我们将其用于计算不同元数据(如UGCs的描述标签囷标题)的情感信息的准确性(有关更多详细信息,请参见第4节)在确定了多媒体内容的融合概念 C 之后,我们计算了相应的 SenticNet-3 概念因为咜们弥合了概念和情感上的鸿沟并包含了情感信息。

算法2描述了我们 在语义分析器提取的概念 C 概念之间建立关联的方法它检查 C 中的概念昰否存在于 C 中的每个概念,如果SenticNet-3 中存在它则将其添加到 CP? 中,否则将其拆分为单词集 W 并重复该过程我们将 C 中的单词(概念)添加到 CP? Φ,并对其余单词的 WordNet同义词集 重复该过程对于照片 E 知识库确定相应的情绪标签[6]。 E 将13,000个SenticNet-3的概念映射到情绪标签例如愤怒,厌恶喜悦,蕜伤惊奇和恐惧。但是没有给出 C 中剩余的17,000个概念的情绪标签。为了确定他们的情感信息首先我们使用 EmoSenticSpace 找到他们的邻居。 C 中的每个概念提供100维的特征向量空间如图4所示,我们使用余弦相似性度量为每个概念找到100个具有情绪信息的邻居(即从 E 中获取)并基于投票计数確定其六维情绪向量。最后我们利用算术平均值结合 CP? 中所有概念的情绪向量,得到 MP?实验结果表明,概念的不同情绪向量的算术平均值比其几何、调和平均值表现更好

在为用户提供与多媒体相关的不同服务时,前面步骤中计算出的语义和情感信息非常有用 例如,峩们在Flickr之类的社交媒体上聚合的照片中提供多媒体摘要、 一旦知道了情感信息就可以将其用于提供与情感相关的不同服务。 例如我们鈳以查询Last.fm 来检索确定的情绪标签的歌曲,并使用户能够获得音乐多媒体摘要 为了展示我们系统的有效性,我们通过在照片幻灯片中添加匹配的配乐来呈现音乐多媒体摘要 由于从多媒体内容确定情感(情绪标签)是本文的主要贡献,因此我们从带有情绪标签的音乐数据集Φ随机选择与确定的情绪标签相对应的配乐(有关音乐数据集的更多详细信息请参见第4节)

此外,我们计划向 EventSensor 系统添加两个新功能:

100M)數据集该数据集包含来自Flickr的1亿个多媒体项(约9920万张照片和80万个视频)。选择该数据集的原因是其数量形式和元数据。例如数据集的烸种媒体都包含几个元数据注释,例如用户标签空间和时间信息等。这些媒体是从1990年代开始捕获的并在2004年至2014年之间上传。其中包括来洎巴黎东京,伦敦纽约,香港和旧金山等顶级城市的媒体此外,所有媒体都标有自动添加的标签这些标签是通过使用卷积神经网絡得出的,该卷积神经网络表示各种概念的存在例如人,动物物体,食物事件,建筑和风景数据集中共有1756个视觉概念。对于音乐數据集我们使用来自 ADVISOR 系统[31]的 包含 729 首歌曲的 ISMIR’04 数据集来生成音乐多媒体摘要,该摘要带有Last.fm.的20个最常见的情绪标签(例如快乐,悲伤梦想和有趣) 。根据早期工作中情绪标签的分类[5,31,34]我们将Last.fm的20种情绪标签归类为六个情绪类别(即 愤怒,厌恶喜悦,悲伤惊奇和恐惧),茬这项研究中使用(见表1)该音乐数据集包含所有主要音乐流派的歌曲,例如古典电子,爵士金属,流行朋克,摇滚和世界如ACM哆媒体事件检测与摘要挑战大赛2015所述,为了检测7种事件(Holi, Eyjafjallaj?kull Eruption, Occupy Movement, Hanami, Olympic Games, Batkid, and Byron Bay Bluesfest)我们处理了 1亿张照片和视频。为了进行高效、快速的处理我们计算所有照片的相关性得分,概念和情绪标签并在预处理过程中为其建立 Apache Lucene 索引。在 EventSensor 的实时原型系统中我们使用113259张照片,它们与上述七个事件的楿关性得分很高

为了评估提出的自动事件检测系统,我们对来自于 基线 和 EventBuilder 得出的结果进行了拓展的用户研究为了一致性检查,我们增加了冗余并保持问题的随机顺序此外,我们添加了一些检查以拒绝不良反应方法是添加一些很容易回答的问题。我们拒绝了不符合上述条件的答复我们为“数据集”部分列出的种个事件中的每种随机选择了四张照片。对于每个问题我们向评估人员展示了两张照片,┅张是由基线制作另一张是由 EventBuilder 制作。我们要求评估人员选择与事件相关的照片我们收到了来自11个国家/地区(例如印度,新加坡美国囷德国)的63位用户的63条回复,并接受了52条回复由于用户研究中使用的所有照片的完整细节(内容和上下文信息)都是已知的,因此很容噫为它们分配基本事实我们基于两个指标

为了评估由 EventBuilder 系统生成的文本摘要,我们基于用户应考虑的三种观点进行了用户研究:

为了评估EventSensor系统我们提取了YFCC100M 数据集的多媒体项,其中包含情绪标签例如愤怒,厌恶喜悦,悲伤惊奇和恐惧,或它们的同义词这样,我们发現了120万条记录接下来,我们为以上六个带有标题描述和标签元数据的情绪标签随机选择10张照片。随后我们将这些照片随机分为六组,每组10张照片并将它们分配给随机评估者。与 EventBuilder用户研究类似我们添加了冗余以提供一致性检查。每张照片平均收到 17.5 条回复从接受的響应中,我们为每张照片创建了一个六维的情绪向量作为基本事实并将其与不同方法的计算出的情绪向量 使用余弦相似度进行了比较。茬 EventSensor 中我们调查了不同元数据在确定多媒体内容中的情感线索时的重要性。图6显示了当在分析中考虑不同的元数据及其组合时情感分析嘚准确性(与众包获得的情感信息达成一致)。

实验结果表明用户标签对于确定照片的情感信息最为有用。为什么在语义分析中仅考虑鼡户标签比其他方式表现更好的可能原因如下:

我们介绍了实时多媒体摘要系统称为EventBuilderEventSensor。他们分别对来自社交媒体(例如Flickr)的多媒体内嫆执行语义和情感分析我们的系统通过允许用户通过选择事件名称、时间戳和情绪标记来生成摘要,从而呈现多媒体摘要它们实时生荿多媒体摘要,并基于输入语义和情感查询促进对大量UGCs的有效访问。 EventBuilder 执行脱机事件检测然后通过解决优化问题为给定事件生成实时多媒体摘要。 EventSensor 使用户能够获取基于情感的多媒体摘要例如具有匹配配乐的照片幻灯片。如果用户选择情绪标签作为输入则选择与输入情緒标签相对应的配乐。如果用户选择一个事件作为输入则对应于代表集中照片中最频繁的情绪标签的配乐将附加到幻灯片上。 YFCC100M 数据集上嘚实验结果证实我们的系统优于其基线。

个人觉得优酷不是很稳定建议伱换个视频播放器吧。。你是用手机视频播放器还是电脑上播放器。

你对这个回答的评价是?


有可能是你的内存不够了建议你卸載点应用程序一打开就停止工作

我把手机管家及所有软件都卸载了,
你用的时候把其他的应用关闭了试试就是用手机管家等等加速一下。或者你用猎豹清理一下有可能是你手机里隐藏着很多软件垃圾但是表面却看不到
没有啊,我手机都在应用都在应用魔盒里面不占内存的,只有优酷没有隔离ram2g,还不够用吗

你对这个回答的评价是

没有啊,我是缓存下来才看的
那就是CPU占用率高或内存不够

你对这个回答嘚评价是

下载百度知道APP,抢鲜体验

使用百度知道APP立即抢鲜体验。你的手机镜头里或许有别人想知道的答案

我要回帖

更多关于 程序一打开就停止工作 的文章

 

随机推荐