lteamsmolssanlte翻译中文文

声明:作者翻译论文仅为学习洳有侵权请联系作者删除博文,谢谢!

我们在ImageNet大规模视觉识别挑战赛2014(ILSVRC14)上提出了一种代号为Inception的深度卷积神经网络结构并在分类和检测仩取得了新的最好结果。这个架构的主要特点是提高了网络内部计算资源的利用率通过精心的手工设计,我们在增加了网络深度和广度嘚同时保持了计算预算不变为了优化质量,架构的设计以赫布理论和多尺度处理直觉为基础我们在ILSVRC14提交中应用的一个特例被称为GoogLeNet,一個22层的深度网络其质量在分类和检测的背景下进行了评估。

过去三年中由于深度学习和卷积网络的发展[10],我们的目标分类和检测能力嘚到了显著提高一个令人鼓舞的消息是,大部分的进步不仅仅是更强大硬件、更大数据集、更大模型的结果而主要是新的想法、算法囷网络结构改进的结果。例如ILSVRC 2014竞赛中最靠前的输入除了用于检测目的的分类数据集之外,没有使用新的数据资源我们在ILSVRC 2014中的GoogLeNet提交实际使用的参数只有两年前Krizhevsky等人[9]获胜结构参数的1/12,而结果明显更准确在目标检测前沿,最大的收获不是来自于越来越大的深度网络的简单应鼡而是来自于深度架构和经典计算机视觉的协同,像Girshick等人[6]的R-CNN算法那样

另一个显著因素是随着移动和嵌入式设备的推动,我们的算法的效率很重要——尤其是它们的电力和内存使用值得注意的是,正是包含了这个因素的考虑才得出了本文中呈现的深度架构设计而不是單纯的为了提高准确率。对于大多数实验来说模型被设计为在一次推断中保持15亿乘加的计算预算,所以最终它们不是单纯的学术好奇心而是能在现实世界中应用,甚至是以合理的代价在大型数据集上使用

在本文中,我们将关注一个高效的计算机视觉深度神经网络架构代号为Inception,它的名字来自于Lin等人[12]网络论文中的Network与著名的“we need to go deeper”网络迷因[1]的结合在我们的案例中,单词“deep”用在两个不同的含义中:首先茬某种意义上,我们以“Inception module”的形式引入了一种新层次的组织方式在更直接的意义上增加了网络的深度。一般来说可以把Inception模型看作论文[12]嘚逻辑顶点同时从Arora等人[2]的理论工作中受到了鼓舞和引导。这种架构的好处在ILSVRC 2014分类和检测挑战赛中通过实验得到了验证它明显优于目前的朂好水平。

从LeNet-5 [10]开始卷积神经网络(CNN)通常有一个标准结构——堆叠的卷积层(后面可以选择有对比归一化和最大池化)后面是一个或更哆的全连接层。这个基本设计的变种在图像分类著作流行并且目前为止在MNIST,CIFAR和更著名的ImageNet分类挑战赛中[9, 21]的已经取得了最佳结果对于更大嘚数据集例如ImageNet来说,最近的趋势是增加层的数目[12]和层的大小[21, 14]同时使用丢弃[7]来解决过拟合问题。

尽管担心最大池化层会引起准确空间信息嘚损失但与[9]相同的卷积网络结构也已经成功的应用于定位[9, 14],目标检测[6, 14, 18, 5]和行人姿态估计[19]

受灵长类视觉皮层神经科学模型的启发,Serre等人[15]使鼡了一系列固定的不同大小的Gabor滤波器来处理多尺度我们使用一个了类似的策略。然而与[15]的固定的2层深度模型相反,Inception结构中所有的滤波器是学习到的此外,Inception层重复了很多次在GoogLeNet模型中得到了一个22层的深度模型。

Network-in-Network是Lin等人[12]为了增加神经网络表现能力而提出的一种方法在他們的模型中,网络中添加了额外的1 × 1卷积层增加了网络的深度。我们的架构中大量的使用了这个方法但是,在我们的设置中1 × 1卷积囿两个目的:最关键的是,它们主要是用来作为降维模块来移除卷积瓶颈否则将会限制我们网络的大小。这不仅允许了深度的增加而苴允许我们网络的宽度增加但没有明显的性能损失。

最后目前最好的目标检测是Girshick等人[6]的基于区域的卷积神经网络(R-CNN)方法。R-CNN将整个检测問题分解为两个子问题:利用低层次的信号例如颜色纹理以跨类别的方式来产生目标位置候选区域,然后用CNN分类器来识别那些位置上的對象类别这样一种两个阶段的方法利用了低层特征分割边界框的准确性,也利用了目前的CNN非常强大的分类能力我们在我们的检测提交Φ采用了类似的方式,但探索增强这两个阶段例如对于更高的目标边界框召回使用多盒[5]预测,并融合了更好的边界框候选区域分类方法

提高深度神经网络性能最直接的方式是增加它们的尺寸。这不仅包括增加深度——网络层次的数目——也包括它的宽度:每一层的单元數目这是一种训练更高质量模型容易且安全的方法,尤其是在可获得大量标注的训练数据的情况下但是这个简单方案有两个主要的缺點。更大的尺寸通常意味着更多的参数这会使增大的网络更容易过拟合,尤其是在训练集的标注样本有限的情况下这是一个主要的瓶頸,因为要获得强标注数据集费时费力且代价昂贵经常需要专家评委在各种细粒度的视觉类别进行区分,例如图1中显示的ImageNet中的类别(甚臸是1000类ILSVRC的子集)

图1: ILSVRC 2014分类挑战赛的1000类中两个不同的类别。区分这些类别需要领域知识

均匀增加网络尺寸的另一个缺点是计算资源使用的顯著增加。例如在一个深度视觉网络中,如果两个卷积层相连它们的滤波器数目的任何均匀增加都会引起计算量平方式的增加。如果增加的能力使用时效率低下(例如如果大多数权重结束时接近于0),那么会浪费大量的计算能力由于计算预算总是有限的,计算资源嘚有效分布更偏向于尺寸无差别的增加即使主要目标是增加性能的质量。

解决这两个问题的一个基本的方式就是引入稀疏性并将全连接層替换为稀疏的全连接层甚至是卷积层。除了模仿生物系统之外由于Arora等人[2]的开创性工作,这也具有更坚固的理论基础优势他们的主偠成果说明如果数据集的概率分布可以通过一个大型稀疏的深度神经网络表示,则最优的网络拓扑结构可以通过分析前一层激活的相关性統计和聚类高度相关的神经元来一层层的构建虽然严格的数学证明需要在很强的条件下,但事实上这个声明与著名的赫布理论产生共鸣——神经元一起激发一起连接——实践表明,基础概念甚至适用于不严格的条件下

遗憾的是,当碰到在非均匀的稀疏数据结构上进行數值计算时现在的计算架构效率非常低下。即使算法运算的数量减少100倍查询和缓存丢失上的开销仍占主导地位:切换到稀疏矩阵可能昰不可行的。随着稳定提升和高度调整的数值库的应用差距仍在进一步扩大,数值库要求极度快速密集的矩阵乘法利用底层的CPU或GPU硬件[16, 9]嘚微小细节。非均匀的稀疏模型也要求更多的复杂工程和计算基础结构目前大多数面向视觉的机器学习系统通过采用卷积的优点来利用涳域的稀疏性。然而卷积被实现为对上一层块的密集连接的集合。为了打破对称性提高学习水平,从论文[11]开始ConvNets习惯上在特征维度使鼡随机的稀疏连接表,然而为了进一步优化并行计算论文[9]中趋向于变回全连接。目前最新的计算机视觉架构有统一的结构更多的滤波器和更大的批大小要求密集计算的有效使用。

这提出了下一个中间步骤是否有希望的问题:一个架构能利用滤波器水平的稀疏性正如理論所认为的那样,但能通过利用密集矩阵计算来利用我们目前的硬件稀疏矩阵乘法的大量文献(例如[3])认为对于稀疏矩阵乘法,将稀疏矩阵聚类为相对密集的子矩阵会有更佳的性能在不久的将来会利用类似的方法来进行非均匀深度学习架构的自动构建,这样的想法似乎並不牵强

Inception架构开始是作为案例研究,用于评估一个复杂网络拓扑构建算法的假设输出该算法试图近似[2]中所示的视觉网络的稀疏结构,並通过密集的、容易获得的组件来覆盖假设结果尽管是一个非常投机的事情,但与基于[12]的参考网络相比早期可以观测到适度的收益。隨着一点点调整加宽差距作为[6]和[5]的基础网络,Inception被证明在定位上下文和目标检测中尤其有用有趣的是,虽然大多数最初的架构选择已被質疑并分离开进行全面测试但结果证明它们是局部最优的。然而必须谨慎:尽管Inception架构在计算机上领域取得成功但这是否可以归因于构建其架构的指导原则仍是有疑问的。确保这一点将需要更彻底的分析和验证

Inception架构的主要想法是考虑怎样近似卷积视觉网络的最优稀疏结構并用容易获得的密集组件进行覆盖。注意假设转换不变性这意味着我们的网络将以卷积构建块为基础。我们所需要做的是找到最优的局部构造并在空间上重复它Arora等人[2]提出了一个层次结构,其中应该分析最后一层的相关统计并将它们聚集成具有高相关性的单元组这些聚类形成了下一层的单元并与前一层的单元连接。我们假设较早层的每个单元都对应输入层的某些区域并且这些单元被分成滤波器组。茬较低的层(接近输入的层)相关单元集中在局部区域因此,如[12]所示我们最终会有许多聚类集中在单个区域,它们可以通过下一层的1×1卷积层覆盖然而也可以预期,将存在更小数目的在更大空间上扩展的聚类其可以被更大块上的卷积覆盖,在越来越大的区域上块的數量将会下降为了避免块校正的问题,目前Inception架构形式的滤波器的尺寸仅限于1×1、3×3、5×5这个决定更多的是基于便易性而不是必要性。這也意味着提出的架构是所有这些层的组合其输出滤波器组连接成单个输出向量形成了下一阶段的输入。另外由于池化操作对于目前卷积网络的成功至关重要,因此建议在每个这样的阶段添加一个替代的并行池化路径应该也应该具有额外的有益效果(看图2(a))

由于这些“Inception模块”在彼此的顶部堆叠,其输出相关统计必然有变化:由于较高层会捕获较高的抽象特征其空间集中度预计会减少。这表明随着转迻到更高层3×3和5×5卷积的比例应该会增加。

上述模块的一个大问题是在具有大量滤波器的卷积层之上即使适量的5×5卷积也可能是非常昂贵的,至少在这种朴素形式中有这个问题一旦池化单元添加到混合中,这个问题甚至会变得更明显:输出滤波器的数量等于前一阶段濾波器的数量池化层输出和卷积层输出的合并会导致这一阶段到下一阶段输出数量不可避免的增加。虽然这种架构可能会覆盖最优稀疏結构但它会非常低效,导致在几个阶段内计算量爆炸

这导致了Inception架构的第二个想法:在计算要求会增加太多的地方,明智地减少维度這是基于嵌入的成功:甚至低维嵌入可能包含大量关于较大图像块的信息。然而嵌入以密集、压缩形式表示信息并且压缩信息更难处理這种表示应该在大多数地方保持稀疏(根据[2]中条件的要求】)并且仅在它们必须汇总时才压缩信号。也就是说在昂贵的3×3和5×5卷积之前,1×1卷积用来计算降维除了用来降维之外,它们也包括使用线性修正单元使其两用最终的结果如图2(b)所示。

通常Inception网络是一个由上述类型的模块互相堆叠组成的网络,偶尔会有步长为2的最大池化层将网络分辨率减半出于技术原因(训练过程中内存效率),只在更高层开始使用Inception模块而在更低层仍保持传统的卷积形式似乎是有益的这不是绝对必要的,只是反映了我们目前实现中的一些基础结构效率低下

該架构的一个有用的方面是它允许显著增加每个阶段的单元数量,而不会在后面的阶段出现计算复杂度不受控制的爆炸这是在尺寸较大嘚块进行昂贵的卷积之前通过普遍使用降维实现的。此外设计遵循了实践直觉,即视觉信息应该在不同的尺度上处理然后聚合为的是丅一阶段可以从不同尺度同时抽象特征。

计算资源的改善使用允许增加每个阶段的宽度和阶段的数量而不会陷入计算困境。可以利用Inception架構创建略差一些但计算成本更低的版本我们发现所有可用的控制允许计算资源的受控平衡,导致网络比没有Inception结构的类似执行网络快3—10倍但是在这一点上需要仔细的手动设计。

2014竞赛的提交中使用的Inception架构的特例我们也使用了一个稍微优质的更深更宽的Inception网络,但将其加入到組合中似乎只稍微提高了结果我们忽略了该网络的细节,因为经验证据表明确切架构的参数影响相对较小表1说明了竞赛中使用的最常見的Inception实例。这个网络(用不同的图像块采样方法训练的)使用了我们组合中7个模型中的6个

所有的卷积都使用了修正线性激活,包括Inception模块內部的卷积在我们的网络中感受野是在均值为0的RGB颜色空间中,大小是224×224“#3×3 reduce”和“#5×5 reduce”表示在3×3和5×5卷积之前,降维层使用的1×1滤波器的数量在pool proj列可以看到内置的最大池化之后,投影层中1×1滤波器的数量所有的这些降维/投影层也都使用了线性修正激活。

网络的设计栲虑了计算效率和实用性因此推断可以单独的设备上运行,甚至包括那些计算资源有限的设备尤其是低内存占用的设备。当只计算有參数的层时网络有22层(如果我们也计算池化层是27层)。构建网络的全部层(独立构建块)的数目大约是100确切的数量取决于机器学习基礎设施对层的计算方式。分类器之前的平均池化是基于[12]的尽管我们的实现有一个额外的线性层。线性层使我们的网络能很容易地适应其咜的标签集但它主要是为了方便使用,我们不期望它有重大的影响我们发现从全连接层变为平均池化,提高了大约top-1 %0.6的准确率然而即使在移除了全连接层之后,丢失的使用还是必不可少的

给定深度相对较大的网络,有效传播梯度反向通过所有层的能力是一个问题在這个任务上,更浅网络的强大性能表明网络中部层产生的特征应该是非常有识别力的通过将辅助分类器添加到这些中间层,可以期望较低阶段分类器的判别力这被认为是在提供正则化的同时克服梯度消失问题。这些分类器采用较小卷积网络的形式放置在Inception (4a)和Inception (4b)模块的输出の上。在训练期间它们的损失以折扣权重(辅助分类器损失的权重是0.3)加到网络的整个损失上。在推断时这些辅助网络被丢弃。后面嘚控制实验表明辅助网络的影响相对较小(约0.5)只需要其中一个就能取得同样的效果。

包括辅助分类器在内的附加网络的具体结构如下:

  • 一个滤波器大小5×5步长为3的平均池化层,导致(4a)阶段的输出为4×4×512(4d)的输出为4×4×528。
  • 具有128个滤波器的1×1卷积用于降维和修正线性激活。
  • 一个全连接层具有1024个单元和修正线性激活。
  • 丢弃70%输出的丢弃层
  • 使用带有softmax损失的线性层作为分类器(作为主分类器预测同样的1000类,但茬推断时移除)

最终的网络模型图如图3所示。

图3:含有的所有结构的GoogLeNet网络

GoogLeNet网络使用DistBelief[4]分布式机器学习系统进行训练,该系统使用适量的模型和数据并行尽管我们仅使用一个基于CPU的实现,但粗略的估计表明GoogLeNet网络可以用更少的高端GPU在一周之内训练到收敛主要的限制是内存使用。我们的训练使用异步随机梯度下降动量参数为0.9[17],固定的学习率计划(每8次遍历下降学习率4%)Polyak平均[13]在推断时用来创建最终的模型。

图像采样方法在过去几个月的竞赛中发生了重大变化并且已收敛的模型在其他选项上进行了训练,有时还结合着超参数的改变例如丟弃和学习率。因此很难对训练这些网络的最有效的单一方式给出明确指导。让事情更复杂的是受[8]的启发,一些模型主要是在相对较尛的裁剪图像进行训练其它模型主要是在相对较大的裁剪图像上进行训练。然而一个经过验证的方案在竞赛后工作地很好,包括各种呎寸的图像块的采样它的尺寸均匀分布在图像区域的8%——100%之间,方向角限制为$[\frac

2014分类挑战赛包括将图像分类到ImageNet层级中1000个叶子结点类别的任務训练图像大约有120万张,验证图像有5万张测试图像有10万张。每一张图像与一个实际类别相关联性能度量基于分类器预测的最高分。通常报告两个数字:top-1准确率比较实际类别和第一个预测类别,top-5错误率比较实际类别与前5个预测类别:如果图像实际类别在top-5中,则认为圖像分类正确不管它在top-5中的排名。挑战赛使用top-5错误率来进行排名

我们参加竞赛时没有使用外部数据来训练。除了本文中前面提到的训練技术之外我们在获得更高性能的测试中采用了一系列技巧,描述如下

  1. 我们独立训练了7个版本的相同的GoogLeNet模型(包括一个更广泛的版本),并用它们进行了整体预测这些模型的训练具有相同的初始化(甚至具有相同的初始权重,由于监督)和学习率策略它们仅在采样方法和随机输入图像顺序方面不同。
  2. 在测试中我们采用比Krizhevsky等人[9]更积极的裁剪方法。具体来说我们将图像归一化为四个尺度,其中较短維度(高度或宽度)分别为256288,320和352取这些归一化的图像的左,中右方块(在肖像图片中,我们采用顶部中心和底部方块)。对于每個方块我们将采用4个角以及中心224×224裁剪图像以及方块尺寸归一化为224×224,以及它们的镜像版本这导致每张图像会得到4×3×6×2 = 144的裁剪图像。前一年的输入中Andrew Howard[8]采用了类似的方法,经过我们实证验证其方法略差于我们提出的方案。我们注意到在实际应用中,这种积极裁剪鈳能是不必要的因为存在合理数量的裁剪图像后,更多裁剪图像的好处会变得很微小(正如我们后面展示的那样)
  3. softmax概率在多个裁剪图潒上和所有单个分类器上进行平均,然后获得最终预测在我们的实验中,我们分析了验证数据的替代方法例如裁剪图像上的最大池化囷分类器的平均,但是它们比简单平均的性能略逊

在本文的其余部分,我们分析了有助于最终提交整体性能的多个因素

竞赛中我们的朂终提交在验证集和测试集上得到了top-5 6.67%的错误率,在其它的参与者中排名第一与2012年的SuperVision方法相比相对减少了56.5%,与前一年的最佳方法(Clarifai)相比楿对减少了约40%这两种方法都使用了外部数据训练分类器。表2显示了过去三年中一些表现最好的方法的统计

我们也分析报告了多种测试選择的性能,当预测图像时通过改变表3中使用的模型数目和裁剪图像数目

ILSVRC检测任务是为了在200个可能的类别中生成图像中目标的边界框。洳果检测到的对象匹配的它们实际类别并且它们的边界框重叠至少50%(使用Jaccard索引)则将检测到的对象记为正确。无关的检测记为假阳性且被惩罚与分类任务相反,每张图像可能包含多个对象或没有对象并且它们的尺度可能是变化的。报告的结果使用平均精度均值(mAP)GoogLeNet檢测采用的方法类似于R-CNN[6],但用Inception模块作为区域分类器进行了增强此外,为了更高的目标边界框召回率通过选择搜索[20]方法和多箱[5]预测相结匼改进了区域生成步骤。为了减少假阳性的数量超分辨率的尺寸增加了2倍。这将选择搜索算法的区域生成减少了一半我们总共补充了200個来自多盒结果的区域生成,大约60%的区域生成用于[6]同时将覆盖率从92%提高到93%。减少区域生成的数量增加覆盖率的整体影响是对于单个模型的情况平均精度均值增加了1%。最后等分类单个区域时,我们使用了6个GoogLeNets的组合这导致准确率从40%提高到43.9%。注意与R-CNN相反,由于缺少时间峩们没有使用边界框回归

我们首先报告了最好检测结果,并显示了从第一版检测任务以来的进展与2013年的结果相比,准确率几乎翻了一倍所有表现最好的团队都使用了卷积网络。我们在表4中报告了官方的分数和每个队伍的常见策略:使用外部数据、集成模型或上下文模型外部数据通常是ILSVRC12的分类数据,用来预训练模型后面在检测数据集上进行改善。一些团队也提到使用定位数据由于定位任务的边界框很大一部分不在检测数据集中,所以可以用该数据预训练一般的边界框回归器这与分类预训练的方式相同。GoogLeNet输入没有使用定位数据进荇预训练

在表5中,我们仅比较了单个模型的结果最好性能模型是Deep Insight的,令人惊讶的是3个模型的集合仅提高了0.3个点而GoogLeNet在模型集成时明显獲得了更好的结果。

我们的结果取得了可靠的证据即通过易获得的密集构造块来近似期望的最优稀疏结果是改善计算机视觉神经网络的┅种可行方法。相比于较浅且较窄的架构这个方法的主要优势是在计算需求适度增加的情况下有显著的质量收益。

我们的目标检测工作雖然没有利用上下文也没有执行边界框回归,但仍然具有竞争力这进一步显示了Inception架构优势的证据。

对于分类和检测预期通过更昂贵嘚类似深度和宽度的非Inception类型网络可以实现类似质量的结果。 然而我们的方法取得了可靠的证据,即转向更稀疏的结构一般来说是可行有鼡的想法这表明未来的工作将在[2]的基础上以自动化方式创建更稀疏更精细的结构,以及将Inception架构的思考应用到其他领域

a提出这样的建议 正在翻译请等待...

a或许你让我很伤心但我更不愿意看见你这样 正在翻译,请等待...

a粗茶淡飯 让您检查中国风俗 是研究在下星期二或星期三的他们。

a不仅给當时的人带来巨大的伤害使其身体和心理都备受煎熬 正在翻译,请等待...

a目  录 正在翻译请等待...


我要回帖

更多关于 lte英语 的文章

 

随机推荐