为什么残差图是什么的所有点都应落在一条水平带中间,什么原理?如图

论文中的验证Transformer的实验室基于机器翻译的下面我们就以机器翻译为例子详细剖析Transformer的结构,在机器翻译中Transformer可概括为如图1:

如论文中所设置的,编码器由6个编码block组成同样解码器是6个解码block组成。与所有的生成模型相同的是编码器的输出会作为解码器的输入,如图3所示:

  1. Self-Attention:当前翻译和已经翻译的前文之间的關系;

在最底层的block中 x将直接作为Transformer的输入,而在其他层中输入则是上一个block的输出。为了画图更简单我们使用更简单的例子来表示接下來的过程,如图7所示:

Self-Attention是Transformer最核心的内容然而作者并没有详细讲解,下面我们来补充一下作者遗漏的地方回想Bahdanau等人提出的用Attention\[2\],其核心内嫆是为输入向量的每个单词学习一个权重例如在下面的例子中我们判断it代指的内容,

 
通过加权之后可以得到类似图8的加权情况在讲解self-attention嘚时候我们也会使用图8类似的表示方式




图9:Q,KV的计算示例图

上面步骤的可以表示为图10的形式。


实际计算过程中是采用基于矩阵的计算方式那么论文中的Q,V,K 的计算方式如图11:

图11:Q,VK的矩阵表示
图10总结为如图12所示的矩阵形式:


这里也就是公式1的计算方式。
在self-attention需要强调的最后┅点是其采用了 [5]中的short-cut结构目的当然是解决深度学习中的退化问题,得到的最终结果如图13

 


我要回帖

更多关于 残差图是什么 的文章

 

随机推荐