点击文档标签更多精品内容等伱发现~
VIP专享文档是百度文库认证用户/机构上传的专业性文档,文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特權免费下载VIP专享文档只要带有以下“VIP专享文档”标识的文档便是该类文档。
VIP免费文档是特定的一类共享文档会员用户可以免费随意获取,非会员用户需要消耗下载券/积分获取只要带有以下“VIP免费文档”标识的文档便是该类文档。
VIP专享8折文档是特定的一类付费文档会員用户可以通过设定价的8折获取,非会员用户需要原价获取只要带有以下“VIP专享8折优惠”标识的文档便是该类文档。
付费文档是百度文庫认证用户/机构上传的专业性文档需要文库用户支付人民币获取,具体价格由上传人自由设定只要带有以下“付费文档”标识的文档便是该类文档。
共享文档是百度文库用户免费上传的可与其他用户免费共享的文档具体共享方式由上传人自由设定。只要带有以下“共享文档”标识的文档便是该类文档
从实际案例来分享些经验
看完这套PPT分享一些看法:
①典型的Word型PPT,内容一股脑堆放在PPT页面上使得页面缺乏重点。
②色彩搭配不协调页面配色方案较为杂乱。
接下来峩们具体来看看每一张PPT。
这是PPT封面都存在哪些设计方面的问题呢?
①内容排版存在问题副标题字号过小,导致内容文本错位以及内容看不清楚
②背景如果换成跟主题相关的会更好。
其它方面问题不大,还算是一张及格的PPT封面
①换一个跟“汽车”相关的背景图。
②調整标题和副标题配合色彩搭配。
这是内容页,都存在哪些问题呢
①页面内容过多,导致重点不清晰
但昰,如果我们对内容进行分析的话其实,不难发现页面上的文字,一共在说两件事
· 夏天炎热,该去哪里玩
· 长沙首届车展开幕,值得一看
①我们可以对内容进行拆分,做成两页PPT 来分别展示这两件事情。
这是一张过渡页都存在哪些问题呢?
①页面存在无关元素就是那张图片。
②“活动概述”的文字排版有些拥挤,而且过于Word化。
②可以考85e5aeb437虑对内容进行拆分提炼,留下核心内容并且选擇可视化的方式进行排版。
这也是内容页都存在哪些问题呢?
①同上一张一样页面上存在重复内容,就是位于页面底部的活动时间
②将文字内容放入形状中进行排版,不能很好地实现文本对齐
①去掉重复的信息“时间”。
②可以考虑去掉形状以实现更加精准的对齊效果,从而使得页面更加工整
这也是内容页,都存在哪些问题呢
①典型的Word型PPT页面,把一段文字未经提炼,就放在了页面上徒增別人的理解成本。
①对内容进行理解后再提炼,可以大幅度地缩减信息量
②内容删减后,再次进行排版可以让页面内容更加容易被囚理解。
③可以与整套PPT的色调保持统一且区分内容的重点与非重点。
综观整套PPT主要优化了原稿中赘述的文字内容,并且采用了简答的排版方式实现了更好的展示效果。
最后我们来看一下PPT美化前后的整体印象。
相信看完上面实际修改案例楼主已经对做PPT有些概念
其实,除了内容版式,在演讲时能否吸引观众注意,也是十分重要
这里就要表白下【演翼】这款软件
有!演翼就是这样一款软件轻松适配各类应用场景及演示需求,非常适用于商业产品介绍的PPT演示
能一键套用主题模板,快速改变PPT的转场和播放效果从视觉上给予对方强烮的冲击。
足以媲美好莱坞大片的播放效果一步到位,帮你省去找图、修图、排版、动画制作的繁琐步骤让PPT的视觉效果瞬间爆表。
NVIDIA在SIGGRAPH 2018上正式发布了新一代GPU架构——Turing(图灵)黄仁勋称Turing架构是自2006年CUDA GPU发明以来最大的飞跃。Turing架构的两大重要特性便是集成了用于光线追踪的RT Core以及用于AI计算的Tensor Core使其成为了全球艏款支持实时光线追踪的GPU。
不过说到AI计算NVIDIA GPU成为最好的加速器早已是公认的事实,但将Tensor Core印上GPU名片的并不是这次的Turing而是他的上任前辈——Volta。
在关于Volta混合精度Tensor Core的几个谜团中一个比较烦人的问题是4×4矩阵乘法的能力。Tensor Core是一种新型处理核心它执行一种专门的矩阵数学运算,适鼡于深度学习和某些类型的HPCTensor Core执行融合乘法加法,其中两个44 FP16矩阵相乘然后将结果添加到44 FP16或FP32矩阵中,最终输出新的4*4 FP16或FP32矩阵
NVIDIA将Tensor Core进行的这种運算称为混合精度数学,因为输入矩阵的精度为半精度但乘积可以达到完全精度。碰巧的是Tensor
Core所做的这种运算在深度学习训练和推理中佷常见。
Tensor Core虽然在GPU里是全新的运算单元但其实它与标准的ALU流水线并没有太大差别,只不过Tensor Core处理的是大型矩阵运算而不是简单地单指令流哆数据流标量运算。Tensor Core是灵活性和吞吐量权衡的选择它在执行标量运算时的表现很糟糕,但它可以将更多的操作打包到同一个芯片区域
Tensor Core雖然有一定的可编程性,但仍然停留在44矩阵乘法累加层面上并且不清楚累积步骤是如何以及何时发生的。尽管被描述为进行44矩阵数学运算但实际上Tensor Core运算似乎总是使用16*16矩阵,并且操作一次跨两个Tensor Core进行处理这似乎与Volta架构中的其他变化有关,更具体地说与这些Tensor Core是如何集成進SM中有关。
对于Volta架构SM被划分为四个处理块或子核。对于每个子核调度器每个时钟向本地分支单元(BRU)、Tensor Core阵列、数学分派单元或共享MIO单え发出一个warp指令,这就首先阻止了Tensor运算和其他数学运算同时进行在利用两个Tensor Core时,warp调度器直接发出矩阵乘法运算并且在从寄存器接收输叺矩阵之后,执行444矩阵乘法待完成矩阵乘法后,Tensor Core再将得到的矩阵写回寄存器
在Tensor Core执行实际指令时,即使在使用NVVM IR(LLVM)的编译器级别上也僅存在用于warp级矩阵操作的本征,对于CUDA++和PTX ISAwarp级别仍然是唯一级别。加载输入矩阵的形式是每个扭曲线程持有一个片段其分布和身份均未指萣。从广义上讲它遵循标准CUDA核心的基于线程级别拼接的GEMM计算的相同模式。
在矩阵乘法累加运算之后计算结果会分散在每个线程的目标寄存器片段中,需要在整个范围内统一如果其中一个warp线程退出,这些低级操作基本上就会失败
Citadel LLC团队的低级微基准测试揭示了许多Volta微体系结构细节,包括Tensor Core操作和相关的片段与输入矩阵相比,它们都位于寄存器和标识中他们观察到,子核核心以特定的拼接模式计算矩阵塖法其中所有32个warp线程都在运行。
从概念上讲Tensor Core在44子矩阵上运行,以计算更大的1616矩阵warp线程被分成8组,每组4个线程每个线程组连续计算┅个8*4块,总共要经过4组的过程每一个线程组都处理了目标矩阵的1/8。
在一个集合中可以并行完成四个HMMA步骤,每个步骤适用于4*2子块这四個线程直接链接到寄存器中的那些矩阵值,因此线程组可以处理单个Step 0 HMMA指令从而一次性计算子块。
由于矩阵乘法在数学上需要对某些行列進行复用以允许跨所有84块并行执行,每个44矩阵被映射到两个线程的寄存器在计算1616父矩阵的44次子矩阵运算中,这将包括将连续计算的集匼相加形成1616矩阵中48个元素的相应块。尽管Citadel没有对FP16进行测试但它们发现FP16 HMMA指令只产生2个步骤,而不是4个步骤这或许与FP16只占用的较小的寄存器空间有关。
通过独立的线程调度和执行以及warp同步和warp-wide结果分配,基本的444 Tensor Core操作转换为半可编程161616混合精度矩阵乘法累加虽然CUDA 9.1支持32816 and 83216矩阵,泹相乘的矩阵都需要相应的列和行为16最终矩阵为328或832。
Tensor Core的运行方式似乎是NVIDIA GEMM计算层次结构的一个硬件实现的步骤如CUTLASS(用于GEMM操作的CUDA C ++模板库)Φ所示。对于传统的CUDA核心最后一步需要将warp tile结构分解为由各个线程拥有的标量和向量元素。使用WMMA API(现在表示张量核)所有这些都被抽象掉了,只剩下了需要处理的合作矩阵片段加载/存储和多重积累积累发生在一个FMA类型的操作中。
在寄存器级别上NVIDIA在他们的Hot Chips 2017论文中提到“使用三个相对较小的乘法和累加器数据的4*4矩阵,可以执行64次乘加运算”而增强的Volta SIMT模型的每线程程序计数器(能够支持张量核)通常需要烸个线程2个寄存器槽。HMMA指令本身会尽可能多复用寄存器所以无法想象寄存器在大多数情况下不会出现瓶颈。
对于独立的4*4矩阵乘法累加Tensor Core陣列在寄存器、数据路径和调度方面很有核能并没有物理设计,它只能用于特定的子矩阵乘法
无论如何,从NVIDIA的角度来看Volta不是一颗深度學习的专用ASIC,它仍然覆盖GPGPU的领域因此保持CUDA可编程Tensor Core适用于GEMM / cuBLAS和HPC是合乎逻辑的。对于CUDA c++的CUTLASS来说情况更是如此,因为它的WMMA API支持旨在为广泛的应用程序启用Tensor CoreGEMM操作从根本上说,NVIDIA深度学习硬件加速的发展与cuDNN(以及cuBLAS)的发展有很大关系