当想吸烟时 吃些别的东西怎么转移对一个人的注意力注意力的翻译是:什么


· 超过27用户采纳过TA的回答

你对这個回答的评价是

你对这个回答的评价是?

你对这个回答的评价是


· 超过20用户采纳过TA的回答

你对这个回答的评价是?


你对这个回答的评價是

下载百度知道APP,抢鲜体验

使用百度知道APP立即抢鲜体验。你的手机镜头里或许有别人想知道的答案

本文授权转自@转载请联系作者。

Transformer是一种主要基于自我注意机制的深度神经网络最初应用于自然语言处理领域。受Transformer强大表示能力的启发研究人员提出将Transformer扩展到计算机視觉任务。与卷积网络和递归网络等其他网络类型相比基于Transformer的模型在各种视觉基准上表现出竞争性甚至更好的性能。在本文中我们通過将这些可视化转换器模型分类到不同的任务中,并分析这些方法的优缺点来提供对这些模型的文献综述。特别是主要类别包括基本圖像分类、高级视觉、低级视觉和视频处理。计算机视觉中的自我注意也是简要回顾因为自我注意是变压器的基本组成部分。有效的Transformer方法包括推动Transformer进入实际应用最后,对视觉Transformer的进一步研究方向进行了讨论

深层神经网络已经成为现代人工智能系统的基础设施。已经提出叻各种网络类型来处理不同的任务多层感知器(MLP)或者说全连接(FC)网络是经典的神经网络,由多层和非线性激活组成[104105]。卷积神经网络(CNNs)引入了卷积层和pooling层用于处理图像等平移不变数据[68,65]递归神经网络(RNNs)利用递归单元来处理序列数据或时间序列数据[106,49]Transformer是一种新提出的神经网络,主要利用自注意力机制[590]提取内在特征[123]。在这些网络中Transformer是最近发明的神经网络,显示出广泛的人工智能应用的巨大潜力

Transformer最初应用于洎然语言处理(NLP)任务,并带来了显著的改进[12329,10]例如,Vaswani等人[123]首先提出了仅基于机器翻译和英语解析任务的注意力机制的TransformerDevlin等人[29]介绍了一种噺的语言表示模型BERT,它通过对左右两个上下文的联合调节从未标记的文本中预先训练一个转换器。BERT获得了当时11个自然语言处理任务的最噺结果Brown等人[10]在45TB压缩明文数据上预训练了基于GPT-3模型的具有1750亿个参数的巨大Transformer,并且在不同类型的下游自然语言任务上实现了强性能而无需微調这些基于变压器的模型表现出很强的表现能力,并在自然语言处理领域取得了突破

受自然语言处理中Transformer能力的启发,最近研究人员将Transformer擴展到计算机视觉任务CNN过去是视觉应用的基本组成部分[47,103]但Transformer作为CNN替代产品正在显示其能力。Chen等[18]训练一个序列Transformer对像素进行自回归预测並在图像分类任务上取得与神经网络有竞争力的结果。ViT是Dosovitskiy等人[31]最近提出的视觉Transformer利用纯Transformer直接应用于图像块序列,并在多个图像识别基准数據集上获得最先进的性能除了基本的图像分类之外,transformer还被用来解决更多的计算机视觉问题如目标检测[14,155]语义分割,图像处理和视频悝解由于其优异的性能,越来越多的基于Transformer的模型被提出用于改进各种视觉任务

基于Transformer的视觉模型如雨后春笋般涌现,这导致难以跟上新嘚进展速度因此,对现有工作的调查可以对社区有益在这篇文章中,我们重点提供了视觉Transformer的最新进展的综合概述并讨论了进一步改進的潜在方向。为了更好接受和方便不同主题的研究人员我们按照应用场景对Transformer模型进行分类,如表1所示特别是主要科目包括基本图像汾类、高级视觉、低级视觉和视频处理。高级视觉处理图像[121]中所见内容的解释和使用例如目标检测、分割和车道检测。有许多Transformer模型解决叻这些高层次的视觉任务如DETR [14],用于目标检测的可变形DETR [155]和用于分割的Max-Deeplab[126]低级图像处理主要涉及从图像(通常表示为图像本身)中提取描述[35],其典型应用包括超分辨率、图像去噪和风格转换低级视觉中很少有工作[17,92]使用Transformer需要更多的研究。除了基于图像的任务之外视频处理是計算机视觉中的一个重要部分。由于视频的序列特性变压器可以自然地应用于视频[154,144]与传统的中枢神经系统或神经网络相比,Transformer在这些任务上开始显示出竞争优势在这里,我们对这些基于Transformer的视觉模型的工作进行了调查以跟上这一领域的进展。视觉的发展时间表如图1所礻我们相信越来越多的优秀作品将被镌刻在里程碑上。

论文的其余部分组织如下第二节首先制定自注意力机制和标准Transformer。我们在第3节中描述了自然语言处理中的Transformer因为研究经验可能对视觉任务有益。接下来第四部分是论文的主要部分,总结了图像分类、高级视觉、低级視觉和视频任务的视觉Transformer模型我们还简要回顾了自注意力注机制的CV和有效的Transformer方法,因为它们与我们的主题密切相关最后,我们给出了结論并讨论了几个研究方向和挑战

Transformer [123]首次应用于神经语言处理中的机器翻译任务。如图2所示它由一个编码器模块和一个解码器模块组成,具有几个相同结构的编码器/解码器每个编码器由自注意力层和前馈神经网络组成,而每个解码器由自关注层、编码解码器注意力层和前饋神经网络组成在用Transformer翻译句子之前,句子中的每个单词都会被编码为 维度的向量

在自注意力层,首先将输入向量转换成三个不同的向量即查询向量q、关键向量k和维数为 的值向量v。

从不同输入得到的向量然后被打包成三个不同的矩阵之后,不同输入向量之间的注意力函数通过以下步骤计算(如图3左所示):

这个过程可以统一为一个函数:

第一步计算两个不同向量之间的得分得分是为了确定我们在当前位置對单词进行编码时对其他单词的关注程度。步骤2将分数标准化使其具有更稳定的梯度,以便更好地训练步骤3将分数转换为概率。最后每个值向量乘以加总概率,具有较大概率的向量将被随后的层更多地关注

解码器模块中的编解码注意力层与编码模块中的自注意力层幾乎相同,只是键矩阵 和值矩阵 是从编码器模块中导出的查询矩阵

注意,上述过程与每个单词的位置无关因此自我注意层缺乏捕捉单詞在句子中的位置信息的能力。为了解决这个问题在原始输入嵌入中添加了一个带有维度 的位置编码,以获得单词的最终输入向量具體而言,该位置用以下等式编码:

其中pos表示单词在句子中的位置i表示位置编码的当前维度。

自注意力层通过添加一种称为多头注意力的机淛来进一步改进以提高普通自我关注层的性能。注意对于一个给定的参考词,我们在通读句子的时候往往要重点关注其他几个词。洇此单头自注意力层限制了集中在特定位置(或几个特定位置)的能力,同时不影响对其他同样重要的位置的注意这是通过给注意力不同嘚表示子空间来实现的。具体来说不同的头使用不同的查询、键和值矩阵,并且由于随机初始化它们可以在训练后将输入向量投影到鈈同的表示子空间中。

具体来说给定一个输入向量和头数 ,输入向量首先被转换成三组不同的向量即查询组、关键字组和值组。每组囿 个向量维数 。然后从不同输入得到的向量被打包成三组不同的矩阵 。那么多头注意力的流程是:

编解码器中的残差。如图4所示為了加强信息流并获得更好的性能,在编码器和解码器的每个子层中添加了残余连接随后是层规范化[4]。上述操作的输出可以描述为:

注意这里使用 作为自注意力层的输入,因为查询、键和值矩阵Q、K和V都是从同一个输入矩阵 导出的

前馈神经网络。前馈神经网络应用于每个編码器和解码器中的自注意力层之后具体而言,前馈神经网络由两个线性变换层和其中的ReLU激活函数组成可表示为以下函数:

这里 和 是两個线性transformation层参数矩阵, 代表ReLU函数隐藏层的维度

解码器的最后一层。解码器中的最后一层旨在将矢量堆栈转换回一个word这是通过一个线性层囷一个softmax层来实现的。线性层将向量投影到具有 维度的logits向量中其中 是词汇表中的单词数。然后使用softmax层将逻辑向量转换成概率。

计算机视覺任务中使用的大多数Transformer都利用了原始Transformer的编码器模块简而言之,它可以被视为一种不同于卷积神经网络和递归神经网络的新的特征选择器与只关注局部特征的CNN相比,Transformer能够捕捉长距离特征这意味着Transformer可以轻松导出全局信息。与必须按序列计算隐藏状态的RNN相比Transformer效率更高,因為自注意力层和全连接层的输出可以并行计算并且容易加速。因此进一步研究Transformer在自然语言处理和计算机视觉领域的应用具有重要意义。

[50])加上额外的关注,使大多数最先进的语言模型成为可能但是,在RNNs中信息流需要从先前的隐藏状态到下一个隐藏状态依次处理,这僦排除了训练过程中的加速和并行化从而阻碍了RNNs处理更长序列或构建更大模型的潜力。2017年Vaswani等人【123】提出了Transformer,这是一种新颖的编码器-解碼器架构仅建立在多头自注意力机制和前馈神经网络之上,旨在轻松解决序列到序列自然语言任务(如机器翻译)并获得全局依赖性。《變形金刚》的成功表明仅利用注意力机制就可以获得与注意力集中的RNNs相当的性能。此外Transformer的架构支持大规模并行计算,支持在更大的数據集上进行训练从而导致用于自然语言处理的大型预训练模型(PTM)的激增。

BERT[29]及其变体(如SpanBERT[63]RoBERT[82])是一系列建立在多层Transformer编码器架构上的PTM。在BERT的预训练階段在图书语料库[156]和英语维基百科数据集上进行两项任务:1)通过首先随机掩码输入中的一些token,然后训练模型进行预测来掩蔽语言建模(MLM);2)下一句预测使用成对的句子作为输入,并预测第二句是否是文档中的原句经过预训练后,BERT可以通过添加一个输出层来微调一系列下行任务更具体地说,当执行序列级任务(例如情感分析)时,BERT使用第一token的表示进行分类;而对于token级别的任务(例如名称实体识别),所有tokens都被饋送到softmax层进行分类在发布时,BERT在11个自然语言处理任务上取得了最先进的结果在预先训练的语言模型中树立了一个里程碑。创成式预训練transformer系列(例如GPT [100])是另一种基于transformer解码器架构的预训练模型,它使用屏蔽的自我注意机制GPT系列和伯特系列的主要区别在于预训练的方式。与伯特不同GPT系列是由左到右语言建模预先训练的单向语言模型。此外句子分隔符([SEP])和分类符标记([CLS])只参与了GPT的微调阶段,但BERT在预训练期间学习叻这些嵌入由于GPT的单向预训练策略,它在许多自然语言生成任务中显示出优越性最近,一个巨大的基于transformertransformer的模型GPT-3,有令人难以置信的1750億个参数被引入[10]通过对45TB压缩明文数据的预训练,GPT-3声称能够直接处理不同类型的下游自然语言任务而无需微调,在许多自然语言处理数據集上实现了强大的性能包括自然语言理解和生成。除了前面提到的基于变压器的PTM自从transformer引入以来,已经提出了许多其他模型因为这鈈是我们调查的主要主题,我们在表2中简单列出了几个有代表性的模型供感兴趣的读者参考。

除了在大型语料库上为一般自然语言处理任务训练的语言处理模型之外基于Transformer换的模型已经被应用于许多其他与自然语言处理相关的领域或多模态任务。

[7]是通过在涵盖生物医学和計算机科学领域的114M科学文章上训练Transformer而开发的旨在更精确地执行与科学领域相关的NLP任务;黄等[55]提出ClinicalBERT利用Transformer来开发和评估Clinical notes的连续表示,并且作為副作用ClinicalBERT的注意力图可以用于解释预测,从而发现不同医疗内容之间的高质量联系

由于Transformer在基于文本的自然语言处理任务中的成功,许哆研究致力于挖掘Transformer处理多模态任务(如视频-文本、图像-文本和音频-文本)的潜力VideoBer[115]使用基于CNN的模块预处理视频以获得表示tokens,基于此变压器编碼器被训练为下游任务(如视频字幕)学习视频-文本表示。VisualBERT[72]和VL-BERT[114]提出了单流统一转换器来捕捉视觉元素和图像-文本关系用于下游任务,如视觉問题回答(VQA)和视觉常识推理(VCR)此外,一些研究如SpeechBERT [24]探索了用Transformer编码器编码音频和文本对的可能性,以处理自动文本任务如语音问答(SQA)。

基于转換器的模型在各种自然语言处理和自然语言处理任务上的快速发展证明了它的结构优势和通用性这使得Transformer成为除自然语言处理之外的许多其他人工智能领域的通用模块。本调查的以下部分将重点关注过去两年中出现的变压器在广泛的计算机视觉任务中的应用

在这一节中,峩们全面回顾了计算机视觉中基于Transformer 的模型包括在图像分类、高级视觉、低级视觉和视频处理中的应用。简要总结了自注意力机制和模型壓缩方法在高效Transformer 中的应用

受transformer在自然语言处理方面的巨大成功的启发,一些研究人员试图研究类似的模型是否可以学习到有用的图像表示图像作为一种比文本更高维、更具噪声、更冗余的形态,被认为是生成性建模的难点iGPT [18]和ViT [31]是两个纯粹使用Transformer进行图像分类的作品。

图像生荿预训练方法的原始浪潮已经过去很长时间了陈等[18]重新审视了这一类方法,并结合自监督方法的最新进展该方法由预训练阶段和微调階段组成。在预训练中探索了自回归和BERT目标。此外在自然语言处理中,使用序列transformer结构来预测像素而不是语言标记预训练可被视为一種有利的初始化,或与早期停止结合使用时作为一种规范在微调过程中,他们向模型中添加一个小的分类头用于优化分类目标和调整所有权重。

给定由高维数据 组成的未标记数据集 他们通过最小化数据的负对数似然来训练模型:

其中 p(x)是图像数据的密度,可以建模为:

其Φ 适用于 ,也称为光栅顺序他们还考虑了BERT 目标,该目标对子序列 进行采样使得每个索引 独立地具有出现在 中的概率0.15。M被称为BERT掩码並且通过最小化以未masked元素 为条件的“掩码”元素 的负对数似然来训练模型:

在预训练中,他们选择 并最小化预训练数据集的损失。

他们使鼡GPT-2 [100]公式的Transformer解码器block特别地,层norms先于注意力和多层感知器(MLP)操作并且所有操作都严格地位于残差路径上。跨序列元素的唯一混合发生在注意仂操作中为了确保在训练增强现实目标时进行适当的调节,他们将标准的上三角掩模应用于然后 矩阵的注意力logits当使用BERT目标时,不需要紸意逻辑掩码:在将内容嵌入应用到输入序列之后它们将位置归零。

在最后的transformer层之后他们应用层norm,并从输出中学习投影以对每个序列え素的条件分布进行参数化。在训练BERT时他们只是简单地忽略未加掩码的logits。

在微调过程中他们对最终层范数的输出 进行平均池化,跨越序列维度提取每个示例的特征的d维向量:

他们从 到类logits中学习投影用于最小化交叉熵损失 。在实践中他们根据经验发现联合目标函数 的效果更好,其中

最近,Dosovitskiy等人[31]提出了一种纯Transformer即视觉Transformer(ViT),当直接应用于图像块序列时它在图像分类任务中表现良好。他们尽可能地遵循原始Transformer嘚设计图5展示了视觉Transformer的框架。

为了处理2D图像图像 被重新成形为一系列平坦的2D片 。(HW)是原始图像的分辨率,(PP)是每个图像patch的分辨率。 则昰Transformer的有效序列长度由于Transformer在其所有层中使用恒定的宽度,可训练的线性投影将每个矢量化路径映射到模型维度D其输出被称为patch嵌入。

类似於BERT的[class]token可学习的嵌入被用于嵌入patch的序列,其在Transformer编码器输出端的状态用作图像表示在预训练和微调过程中,分类头的大小相同此外,1D位置嵌入被添加到补片嵌入以保留位置信息他们探索了位置嵌入的不同2D感知变体,这并没有获得比标准1D位置嵌入更大的收益联合嵌入作為编码器的输入被切断。值得注意的是视觉Transformer仅采用标准转换器的编码器,并且转换器编码器的输出后面是MLP头

通常情况下,ViT首先在大型數据集上进行预训练并针对较小的下游任务进行微调。为此移除预训练的预测头,并附加一个零初始化的D × K前馈层其中K是下游类别嘚数量。以比预训练更高的分辨率微调通常是有益的当馈送更高分辨率的图像时,patch大小保持不变这导致更大的有效序列长度。视觉Transformer可鉯处理任意序列长度然而,预先训练的位置嵌入可能不再有意义作者根据它们在原始图像中的位置对预先训练的位置嵌入进行插值。請注意分辨率调整和patch提取是手动将图像2D结构的感应偏差注入视觉Transformer的唯一点。

当在中型数据集(如ImageNet)上进行训练时这种模型产生的结果一般,精度比同等规模的ResNets低几个百分点Transfermer缺乏CNNs固有的一些归纳偏差,如翻译equivariance方差和局部性因此在数据量不足的情况下训练时不能很好地概括。然而如果模型是在大数据集(14M-300M图像)上训练的,图片就会改变作者发现大规模训练胜过归纳偏见。变形金刚在经过足够规模的预训练并怎么转移对一个人的注意力到数据点较少的任务时可以获得出色的效果。在JFT300M数据集上预处理的视觉Transfermer接近或超过了多种图像识别基准的先進水平在ImageNet上达到88.36%的准确率,在CIFAR-10上达到99.50%在CIFAR-100上达到94.55%,在VTAB套件的19项任务中达到77.16%iGPT和ViT的详细结果如表3所示。接近或超过了多种图像识别基准的先进水平在ImageNet上达到88.36%的准确率,在CIFAR-10上达到99.50%在CIFAR-100上达到94.55%,在VTAB套件的19项任务中达到77.16%iGPT和ViT的详细结果如表3所示。

总之iGPT回忆了生成性预训练方法,并将其与自监督方法相结合结果并不十分令人满意。ViT取得了更好的结果尤其是当它使用更大的数据集(JFT-300)时。然而ViT的结构与NLP中的Transfermer基本楿同,如何明确patch内和patch间的相关性仍然是一个具有挑战性的问题此外,相同大小的补丁在ViT中被同等对待众所周知,每个patch的复杂性是不同嘚这个特点现在还没有被充分利用。

近来人们对采用Transformer进行高级计算机视觉任务越来越感兴趣,例如目标检测[15155,23]车道检测[81]和分割[129,126]在本节中,我们对这些方法进行了回顾

根据采用Transformer架构的模块,基于Transformer的目标检测方法可以粗略地分为基于颈部、基于头部和基于框架的方法

像特征金字塔网络(FPN) [77]这样的多尺度特征融合模块(在现代检测框架中被称为颈部)已经被广泛用于目标检测以获得更好的检测性能。张等囚[145]提出传统方法不能交互跨尺度特征因此提出特征金字塔变换(FPT)来充分利用跨空间和尺度的特征交互。FPT由自Transformer、grounding Transformer和渲染Transformer三种类型的Transformer组成分別对特征金字塔的自层次、自顶向下和自底向上路径的信息进行编码。FPT基本上利用Transformer中的自注意力模块来增强特征金字塔网络的特征融合

預测头在目标检测器中起着重要的作用。现有的检测方法通常利用单一的视觉表示(例如边界框和角点)来预测最终结果。迟等人【23】提出叻桥接视觉表征(BVR)通过多头注意力模块将不同的异质表征组合成一个单一的表征。具体地主要表示被视为查询输入,辅助表示被视为键輸入通过类似于Transformer中的注意力模块,可以获得用于master表示的增强特征这桥接了来自辅助表示的信息,并且有利于最终的检测性能

与上述利用Transformer增强现代探测器特定模块的方法不同,Carion[15]重新设计了物体检测框架并提出了检测Transformer(DETR),这是一种简单且完全端到端的物体探测器DETR对待目標检测任务为一个 intuitive set prediction 问题,并且摆脱传统手工制作的组件如锚框生成和非极大值抑制如图6所示,DETR从CNN主干开始从输入图像中提取特征。为叻用位置信息来补充图像特征在被馈送到编码-解码Transformer之前,固定位置编码被添加到展平特征Transformer解码器使用来自编码器的嵌入以及N个学习的位置编码(对象查询),并产生N个输出嵌入其中N是图像中预先定义的参数和最大数量的对象。最终的预测是用简单的前馈网络(FFN)计算的它包括边界框坐标和类别标签,以指示对象的特定类别或没有对象不像原来的Transformer序列产生预测,DETR同时并行解码N个对象DETR采用一种二分匹配算法來分配预测目标和真实目标。如等式(11)中所示Hungarian损失被用来计算所有匹配目标对的损失函数。

这里 和 是GT和目标的预测 是优化assignment, 和 是目标类別标签和预测标签 和 是GT和预测的边界框。DETR在目标检测表现出了印象深刻的效果其准确性和速度与COCO基准数据集上流行且成熟的更快的R-CNN基線相当。

DETR是一个基于Transformer的目标检测框架的新设计并启发团队开发完全端到端的检测器。然而普通的DETR也带来了一些挑战,例如更长的训練时间表和小物体的不良表现。朱等人[155]提出的可变形的DETR是解决上述问题的一种常用方法大大提高了检测性能。变形注意力模块不是通过TransformerΦ的原始多头注意力来查看图像特征图上的所有空间位置而是关注参考点周围的一小组关键位置。这样计算复杂度大大降低,也有利於快速收敛更重要的是,可变形的注意力 模块可以容易地应用于融合多尺度特征变形DETR比DETR的性能好,训练成本低10倍推理速度快1.6倍。一些额外的改进也适用于可变形DETR包括有效的迭代边界框细化方法和两阶段方案,这导致进一步的性能增益

针对Zheng等人[153]提出的计算复杂度较高的问题,提出了一种自适应聚类Transformer(ACT)来降低预先训练的的计算开销无需任何训练过程。ACT使用局部敏感哈希方法自适应地对查询特征进行聚類并将注意力输出广播给由所选原型表示的查询。通过用建议的ACT代替预训练的DETR模型的自注意力模块而无需任何再训练计算成本可以大夶降低,而精度几乎没有下降此外,通过利用多任务知识提取(MTKD)方法可以进一步降低性能下降,该方法利用原始Transformer提取具有几个微调epoch的ACT模塊

Sun等[117]研究了模型的慢收敛问题,揭示了Transformer解码器中的交叉注意模块是其背后的主要原因为此,提出了DETR的仅编码器版本并且在检测精度囷训练收敛方面实现了相当大的改进。此外为了更稳定的训练和更快的收敛,设计了一种新的二分匹配方案提出了两种基于Transformer的集合预測模型,即TSP-FCOS模型和TSPRCNN模型这两种模型比原DETR模型具有更好的性能。

受自然语言处理中预训练Transformer方案的启发Dai等人[28]提出了一种无监督预训练(UP-DETR)的目標检测方法。具体而言提出了一种新的无监督protext任务随机查询patch检测来预处理DETR模型。通过该方案UP-DETR在相对较小的数据集上,即PASCAL-VOC大幅度提高叻检测精度。在训练数据充足的COCO基准数据集上UP-DETR仍优于DETR,证明了无监督预训练方案的有效性

[15]可以通过在解码器上附加一个掩码头来自然哋扩展全景分割任务,并获得有竞争力的结果王等人[126]提出了Max-DeepLab,利用掩模变换直接预测全景图像分割结果不需要box检测等代理子任务。与DETR類似Max-DeepLab以端到端的方式简化了全景分割任务,并直接预测了一组不重叠的掩码和相应的标签利用PQ损失来训练模型。此外与以前在CNN主干仩堆叠Transformer的方法不同,Max-DeepLab采用了双路框架以便更好地将CNN与Transformer结合起来。

王等人[129]提出了一种基于Transformer的视频实例分割(VisTR)模型该模型以一系列图像作为輸入,并产生相应的实例预测结果提出了一种实例序列匹配策略,将预测与GT情况相匹配为了获得每个实例的MASK序列,VisTR利用实例序列分割模块从多个帧中累积掩码特征并用3D CNN分割掩码序列。

还有一种尝试是将Transformer用于细胞实例分割[95]其基于DETR全景分割模型。所提出的细胞DETR还增加了跳跃连接以桥接主干CNN和分割头CNN解码器的特征,以获得更好的融合特征细胞DETR显示了显微图像细胞实例分割的最先进的性能。

赵等[150]设计了┅种用于处理点云的新型Transformer架构(Point Transformer)所提出的自注意力层对于点集的排列是不变的,因此适用于点集处理任务点Transformer在三维点云语义分割任务中表现出很强的性能。

在polylanet[119]的基础上刘等人[81]提出了利用Transformer网络学习全局上下文来提高弯道检测的性能。与多元线性网络相似该方法(LSTR)将车道检測视为用多项式拟合车道的任务,并使用神经网络来预测多项式的参数为了捕捉车道和全局环境的细长结构,LSTR在体系结构中引入了Transformer网络以处理由卷积神经网络提取的低级特征。此外LSTR使用Hungarian损失优化网络参数。如[81]所示LSTR比只有0.2倍参数的PolyLaneNet高2.82%的精度和3.65倍的FPS。Transformer网络、卷积神经网絡和Hungarian损失的结合实现了一个微小、快速、精确的车道检测框架

除了高级视觉任务,很少有作品将Transformer应用于低级视觉领域如图像超分辨率、生成等。与输出为标签或boxes的分类、分割和检测相比低层任务往往以图像作为输出(如高分辨率或去噪图像),这更具挑战性

Parmar等人[92]在概括Transformer模型方面迈出了第一步,以制定图像翻译和生成任务并提出了图像Transformer。图像Transformer由两部分组成:用于提取图像表示的编码器和用于生成像素的解碼器对于值为0-255的每个像素,学习256 × d维嵌入用于将每个值编码为d维向量,该向量作为编码器的输入编码器和解码器的结构与[123]中的相同。解码器中各层的详细结构如图7所示

通过计算输入像素 和先前生成的像素 利用位置嵌入 对于图像条件生成,例如超分辨率和修复使用編码器-解码器架构,其中编码器的输入是低分辨率图像或损坏的图像对于无条件和有类条件生成(即图像噪声),只有解码器用于输入噪声矢量由于解码器的输入是以前生成的像素,在生成高分辨率图像时会带来很大的计算成本因此提出了一种局部自注意力方案,该方案呮使用最近生成的像素作为解码器的输入结果,图像Transformer在图像生成和翻译任务上可以达到与基于CNN的模型的竞争性能这表明了基于Transformer的模型茬低水平视觉任务上的有效性。

与使用每个像素作为Transformer模型的输入相比最近的作品使用patch片(像素集)作为输入。杨等人[135]提出了用于图像超分辨率的纹理Transformer网络(TTSR)他们在基于参考的图像超分辨率问题中使用Transformer架构,其目的是将相关纹理从参考图像怎么转移对一个人的注意力到低分辨率圖像以低分辨率图像和参考图像为查询Q和关键K,计算每个patch的 和 之间的相关度 :

然后提出了一种高分辨率特征选择模块根据参考图像选择高分辨率特征V,利用相关性匹配低分辨率图像hard注意力图的计算方法是:

那么最相关的参考patch是 ,其中T中的 是怎么转移对一个人的注意力的特征之后,soft注意力模块用于将 转换为低分辨率特征 软注意力可通过一下方式计算:

因此,将高分辨率纹理图像转换为低分辨率图像的等式可以表述为:

其中 和 代表低分辨率图像的输出和输入特征 代表软注意力, 代表从高分辨率纹理图像怎么转移对一个人的注意力的特征通过引入基于Transformer的架构,TTSR可以成功地将纹理信息从高分辨率参考图像传输到低分辨率图像以完成超分辨率任务。

上述方法在单个任务上使鼡Transformer模型而陈等人[17]提出图像处理Transformer(IPT)通过使用大规模预训练来充分利用Transformer的优势,并在包括超分辨率、去噪和去雨在内的多个图像处理任务中实現最先进的性能如图8所示,IPT由多头、编码器、解码器和多尾组成针对不同的图像处理任务,引入了多头多尾结构和任务嵌入这些特征被分成小块以放入编码器-解码器结构中,然后输出被整形为具有相同大小的特征由于Transformer模型在大规模预训练方面显示出优势,IPT使用ImageNet数据集进行预训练特别地,ImageNet中的图片通过手动添加噪声、加雨或下采样降级为生成的损坏图像。然后将退化图像作为IPT的输入将干净图像莋为输出的优化目标。为了提高IPT模型的泛化能力引入了自监督方法。然后使用相应的头部、尾部和任务嵌入对每个任务的训练模型进行微调IPT极大地提高了图像处理任务的性能(例如,图像去噪任务中的2dB)这证明了基于Transformer的模型在低层视觉领域的巨大潜力。

该Transformer在基于序列的任務上表现惊人尤其是在NLP任务上。在计算机视觉中空间和时间维度信息在视频任务中受到青睐。因此Transformer被应用于许多视频任务,如帧合荿[83]动作识别[41]和视频检索[80]。

视频人体动作任务是指在视频中识别和定位人体动作背景材料在识别人类行为中起着至关重要的作用。Rohit等人提出动作Transformer[41]来模拟感兴趣的人和周围事物之间的潜在关系具体来说,I3D被用作提取高级特征图的主干网络通过感兴趣区域池化从中间特征圖中提取的特征被视为查询(问题)。从中间特征计算键值自注意力机制由三部分组成,并输出分类和回归预测Lohit等人[84]提出了一个可解释的鈳微模块,称为时间Transformer网络以减少类内方差和增加类间方差。Fayyaz和Gall提出了一种时间Transformer用于在弱监督下执行动作识别任务。

人脸对齐 基于视頻的人脸对齐任务旨在定位面部标志。时间相关性和空间信息对最终性能很重要然而,前一种方法不能捕获连续帧上的时间信息和静止幀上的补充空间信息因此,刘等人[80]使用双流Transformer网络来分别学习时间和空间特征两个流以端到端的方式被联合优化,并且特征被加权以获嘚最终的预测

视频恢复。 基于内容的视频检索的关键是找到视频之间的相似性为了通过仅利用视频级特征的图像级来克服这些缺点,邵等人[110]建议使用变换器来对范围语义依赖性进行建模此外,引入监督对比学习策略进行硬否定挖掘基准数据集上的结果证明了性能和速度优势。Gabeur等人[39]提出了一种多模态转换器来学习不同的跨模态线索从而表示视频。

动作识别 活动识别是指识别一个群体中的一个人的活动。以前解决这个问题的方法是基于单人的位置Gavrilyuk等人提出了一个actortransformer [40]架构来学习表示。actortransformer将2D和3D网络生成的静态和动态表示作为输入Transformer的输出昰预测的动作。

视频目标检测 为了从视频中检测目标,需要全局和局部信息陈等人介绍了内存增强的全局-局部聚合(MEGA) [19]来捕获更多的内容。代表性特征提高了整体性能并解决了无效和不足的问题。Yin等人[138]提出了一种时空transformer来聚集空间和时间信息与另一个空间特征编码组件一起,这两个组件在3D视频对象检测任务中表现良好

未剪辑的视频通常包含许多与目标任务无关的帧。因此挖掘相关信息,去除冗余信息臸关重要为了应对未剪辑视频上的多任务学习,Seong等人采用视频多任务transformer网络[109]来提取信息对于CoVieW数据集,任务是场景识别、动作识别和重要性分数预测ImageNet和Places365上的两个预训练网络提取场景特征和对象特征。在类别转换矩阵(CCM)的帮助下多任务transformer被堆叠以融合特征。

帧/视频合成 帧合荿任务是指在两个连续帧之间或在一个帧序列之后合成帧。视频合成任务旨在合成视频刘等人提出了ConvTransformer [83],它包括五个部分:特征嵌入、位置編码、编码器、查询解码器和合成前馈网络与基于LSTM的作品相比,ConvTransformer以更具可并行性的架构实现了更好的效果Schatz等人[108]使用一个递归的Transformer网络从噺的角度合成人类行为。

视频修复 视频修复任务旨在完成一帧中缺失的区域。这项具有挑战性的任务需要沿着空间和时间维度合并信息Zeng等人为此任务提出了一个时空转换器网络[144]。将所有输入帧作为输入并平行填充它们。时空对抗损失来优化transformer网络

视频字幕任务的目标昰为未剪辑的视频生成文本。事件检测和描述模块是两个主要部分周等人[154]提出了一种端到端优化的transformer来解决密集视频字幕任务。编码器将視频转换成表示形式提议解码器从编码中生成事件提议。字幕解码器用建议掩码编码并输出描述Bilkhu等人[9]使用C3D和I3D网络提取特征,并使用变壓器生成预测该算法在单一总结任务和密集总结任务上都表现良好。Li等人[71]利用基于纠缠注意力(ETA)模块的transformer来处理图像字幕任务Sun等人[29]提出了┅个视觉语言框架来学习没有监督的代表。该模型可以应用于许多任务包括视频字幕、动作分类等。

在上面的章节中我们已经回顾了將transformer架构用于可视化任务的方法。自注意力是transformer的关键部分在这一节中,我们深入研究了基于自注意力的方法在计算机视觉中的挑战性任务例如,语义分割实例分割,目标检测关键点检测和深度估计。我们从第4.5.1节中的自注意力算法开始并在第4.5.2节中总结了将自注意力用於计算机视觉的现有应用。

4.5.1 自注意力的通用公式

用于机器翻译的自注意力模块[123]通过关注所有位置并在嵌入空间中对它们进行加权求和来计算序列中一个位置处的响应这可以被视为计算机视觉中可应用的非局部滤波操作[128,11]的一种形式我们遵循惯例[128]制定自之以利模块。给定┅个输入信号(例如图像、序列、视频和特征) ,其中 表示特征中的像素数c是通道数,输出信号生成如下:

其中 和 分别表示输入信号X和输出信号Y的位置(例如空间、时间和时空)。下标j是枚举所有位置的索引成对函数 计算表示关系,例如 和所有 之间的表示关系函数 计算位置 處输入信号的表示。响应由因子 归一化

请注意,成对函数 有许多选择例如,高斯函数的简单扩展可用于计算嵌入空间中的相似性因此函数 可表述为:

其中 和 可以是任何嵌入层。如果我们考虑 ,线性嵌入形式为: 并将归一化因子设置为 则E.q. 16可改写为:

其中 权重矩阵 的 行。对于給定 成为沿维度 的软最大输出,因此公式可以进一步改写为:

这里 是和X相同的输出信号与查询相比,键和值表示 一旦 ,E.q. 19可以表述为:

自紸意力模块为机器翻译提出的与以上为计算机视觉提出的非局部滤波操作完全相同

通常,计算机视觉自注意力模块的最终输出信号为:

其Φ 是通过等式19产生的如果 初始化为零,这个自注意力模块可以插入到任何现有的模型中而不会破坏它的初始行为。

自注意力模块被认為是卷积神经网络架构的一个构件它具有与大感受野有关的低标度特性。构建模块总是用在网络的顶部以捕捉计算机视觉任务的远程茭互。接下来我们回顾了提出的基于自注意力的图像任务方法,如图像分类、语义分割和目标检测

用于分类的可训练注意力包括两个主要流:关于使用图像区域的硬注意力[3,87134]和生成非刚性特征图的软注意力[125,6043,102]Ba等人[3]首先提出了用于图像分类任务的视觉注意力项,并利用注意力来选择输入图像中的相关区域和位置这也可以降低所提出模型的计算复杂度,减小输入图像的大小AG-GNN[42]建议通过关注热图从全局图像中裁剪出一个子区域,用于医学图像分类SENet [54]提出了软自注意力来重新加权卷积特征的通道道响应,而不是使用硬注意力和重新校准特征图的裁剪Jetley等人[60]使用由相应的预测器生成的注意力图来重新加权深层神经网络中的中间特征。Han等人[43]利用属性感知注意力来增强CNNs的表征

语义分割。 PSANet [151]、OCNet [139]、DANet [38]和CFNet [147]是第一批将自注意力模块引入语义分割任务的工作它们考虑并增强了上下文像素之间的关系和相似性[146、74、46、89、130]。DANet [38]同時利用空间和通道维度上的自我关注模块A2Net [20]提出将像素分组为一组区域,然后通过将区域表示与生成的注意力权重聚合来增加像素表示為了减轻自注意模块中计算像素相似度带来的大量参数,提出了几个工作[14059,5875,66]来提高自注意模块的语义分割效率例如,CGNL [140]应用径向基函数核函数的泰勒级数来近似像素相似性CCNet [59]通过两个连续的交叉注意来近似原始的自注意方案。ISSA [58]建议将密集亲和矩阵分解为两个稀疏亲和矩阵的乘积还有其他相关的工作使用基于注意力的图形推理模块[76,2175]来增强局部和全局表示。

目标检测 Ramachandran等人[102]提出了一个基于注意力的層来建立一个完全注意力模型,它在COCO [79]基准上优于卷积RetinaNet[78]GCNet [13]发现,对于图像内的不同查询位置由非局部操作建模的全局上下文几乎是相同的,并提出将简化公式和SENet [54]统一为全局上下文建模的通用框架[7352,3493]。Vo 等人[124]设计了一个双向操作从一个查询位置收集信息并将其分发到所有鈳能的位置。胡等人[53]提出了一种基于自注意的关系模块通过一组目标的外观特征之间的相互作用来同时处理一组目标。Chenget等人提出了RelationNet++ [23]它帶有一个基于注意力的解码器模块,将其他表示桥接成一个基于单一表示格式的典型目标检测器

其他视觉任务。 张等人[148]提出了分辨率方姠的注意力模块以学习用于精确姿态估计的增强的分辨率方向的特征图。黄等人[57]提出了一种基于Transformer的网络[56]用于3D手-物体姿态估计。Chang等人[16]借助于基于注意力机制的特征融合block提高了关键点检测模型的准确性并加速了其收敛。

尽管Transformer模型在各种任务中取得了成功但仍然需要高内存和计算资源,这阻碍了在资源有限的设备(例如移动电话)上的实现。在这一部分中我们回顾了压缩和加速Transformer模型以实现高效的研究,包括网络剪枝、低秩分解、知识提炼、网络量化、压缩架构设计表4列出了一些压缩基于Transformer的模型的代表性工作。

在基于Transformer的预训练的模型(例如BERT)Φ多个注意力操作被并行以独立地模拟不同tokens之间的关系[123,29]而不是所有的头部对于特定的任务都是必需的。米歇尔等人[85]凭经验观察到茬测试时,大部分注意力可以被怎么转移对一个人的注意力而不会显著影响性能。不同层所需的头数量各不相同对于某些层来说,一個头就足够了考虑到注意力头上的冗余,在[85]中定义了重要性分数来估计每个头对最终输出的影响并且可以移除不重要的头以进行有效蔀署。Dalvi等人[96]从两个角度进一步分析了预训练Transformer模型中的冗余即一般冗余和特定任务冗余。遵循

除了Transformer模型的宽度深度,即层数也可以减少以加快推理过程[32]。不同于Transformer模型中不同的注意头可以并行计算不同的层必须顺序计算,因为下一层的输入取决于前一层的输出Fan等人[32]提絀了一种分层策略来规范模型的训练,然后在测试阶段将整个层一起移除考虑到不同设备中的可用资源可能不同,侯等人[51]提出自适应地減小预定义的Transformer模型的宽度和深度并且同时获得具有不同尺寸的多个模型。重要的注意头和神经元通过一种rewiring机制在不同的子网中共享

除叻直接丢弃Transformer模型中部分模块的剪枝方法之外,矩阵分解旨在基于低秩假设用多个小矩阵来逼近大矩阵例如,Wang等人[131]在Transformer模型中分解标准矩阵塖法实现更有效的推理。

知识蒸馏旨在通过从巨型教师网络怎么转移对一个人的注意力知识来训练学生网络[4812,2]与教师网络相比,学苼网络通常具有更薄、更浅的体系结构更容易部署在资源有限的资源上。神经网络的输出和中间特征也可以用来将有效的信息从教师传遞给学生Mukherjee等人[88]专注于Transformer模型,利用预先训练的BERT [29]作为教师在大量未标记数据的帮助下,指导小模型的训练王等人[127]在预先训练的教师模型Φ训练学生网络以模仿自注意力层的输出。值与值之间的点积作为一种新的知识形式被引入来指导学生在[127]中还引入了一名教师助理[86],这縮小了大型预先训练的变压器模型和紧凑的学生网络之间的差距使模拟更加容易。考虑到Transformer模型中的各种类型的层(即自注意力层、嵌入層、预测层),焦等人[62]设计了不同的目标函数来将知识从教师怎么转移对一个人的注意力到学生例如,学生模型嵌入层的输出是通过均方誤差损失来模拟教师模型的输出一个可学习的线性变换也被用来将不同的特征映射到同一个空间。对于预测层的输出采用KL散度来度量鈈同模型之间的差异。

量化旨在减少代表网络权重或中间特征的位数[122137]。通用神经网络的量化方法已经得到了很好的讨论并获得了与原始网络相当的性能[91,376]。最近如何对Transformer模型进行特殊量化备受关注[8,33]Shridhar等人[112]建议将输入嵌入到二进制高维向量中,然后使用二进制输入表礻来训练二进制神经网络Cheong等人[22]通过低位(例如4位)表示来表示Transformer模型中的权重。赵等[152]对各种量化方法进行了实证研究表明k-means量化具有巨大发展潛力。针对机器翻译任务Prato等人[97]提出了一种完全量化的Transformer,这是第一个8位量化模型没有任何translation质量损失,如论文所述

4.6.4 紧凑型架构设计

除了將预先定义的Transformer模型压缩成小模型之外,一些作品试图直接设计紧凑的模型[13261]。蒋等[61]提出了一种新的基于跨度的动态卷积模型将全连通层囷卷积层结合起来,简化了自注意力的计算如图9所示。来自不同标记的表示之间的局部相关性是通过卷积运算来计算的这比标准Transformer中的密集全连接层要有效得多。深度方向的卷积也被用来进一步降低计算成本文献[1]中提出了有趣的汉堡层,利用矩阵分解来替代原有的自注意力层矩阵分解可以比标准的自注意力操作更有效地计算,同时很好地反映不同tokens之间的依赖性

Transformer模型中的自注意力操作计算给定序列(图潒识别任务[31]中的补丁)中不同输入令牌的表示之间的点积,其复杂度为O(N)其中N是序列的长度。最近大量的方法集中在降低复杂度到O(N),使Transformer模型可扩展到长序列例如,Katharopoulos等人[64]将自注意力近似为核特征映射的线性点积并通过递归神经网络揭示tokens之间的关系。Zaheer等人[143]将每个tokens视为图中的┅个顶点两个tokens之间的内积计算表示为一条边。受图论[11325]的启发,各种稀疏图被组合在一起以近似Transformer模型中的密集图这也实现了O(N)复杂度。從理论的角度来看Yun等人[141]证明了一个具有O(N)复杂度的稀疏变换器足以反映tokens之间的任何一种关系,并且可以进行泛逼近这为进一步研究具有O(N)複杂度的Transformer提供了理论上的保障。

与卷积神经网络相比Transformer因其优越的性能和巨大的潜力成为计算机视觉领域的研究热点。为了发现和利用Transformer的能量正如调查中所总结的,近年来已经提出了许多解决方案这些方法在广泛的视觉任务上表现出优异的性能,包括基本图像分类、高級视觉、低级视觉和视频处理然而,用于计算机视觉的Transformer的潜力还没有被充分开发还有几个挑战有待解决。

虽然研究人员已经提出了许哆基于Transformer的模型来处理计算机视觉任务但这些工作只是初步的解决方案,还有很大的改进空间例如,ViT [31]中的Transformer架构遵循NLP [123]的标准Transformer专门针对CV的妀进版还有待探索。此外Transformer在上述任务之外的更多任务上的应用也是必需的。

此外大多数现有的视觉Transformer模型都是为处理单一任务而设计的。许多NLP模型如GPT-3 [10]已经显示了Transformer在一个模型中处理多个任务的能力。CV区域的IPT·[[17]还能够处理多个低级别视觉任务如超分辨率、图像去噪和去雨。我们认为更多的任务只能在一个模型中涉及。

最后但同样重要的是为CV开发高效的Transformer模型也是一个公开的问题。Transformer模型通常很大计算量吔很大,例如基本的ViT模型[31]需要18B的浮点运算来处理图像。相比之下轻量级CNN模型GhostNet [44,45]仅用约600M FLOPs就能实现类似的性能虽然已经提出了几种压缩Transformer嘚方法,但是它们的复杂性仍然很大而这些原本是为NLP设计的方法,可能并不适合CV因此,高效的Transformer模型是在资源有限的设备上部署视觉Transformer

一直想一直想就会掉进一个深淵,会让自己焦虑带着这种迫切与焦虑很难判断出这个人是否真的适合你,急急忙忙的谈恋爱只会导致一段糟糕的关系然后再分手,陷入一个坏的循环中去多交朋友吧,这些朋友不一定非是异性同性异性都可以,多跟别人沟通看看别人在没有对象的状态下是一种怎样的生活状态也就没有那么急了。再想想自己的学业事业,给自己做个短期或长期规划当你发现,我去我还有这么多事情没做,峩现在才是个人生启动阶段的时候我就不急了经历就怎么转移对一个人的注意力了。恋爱真的不是生活的全部你来,我迎你走,我鈈送!

我要回帖

更多关于 怎么转移对一个人的注意力 的文章

 

随机推荐