为什么采用预测编码?并举例说明信息编码的方法有哪些,请举例说明预测编码

变换编码有傅里叶变换DCT变换,DWT變换哈尔变换等等,这些变换都是正交变换所谓正交变换即变换的基函数(离散下为基向量)之间相互正交,比如(1,1)和(1-1),所謂变换就是把原来的信号分别投影到这些基向量上每个基向量的系数就是投影值,例如:

上式中(x1,x2)代表原始信号,经过变换后得到(y1,y2)y1即為原始信号(x1,x2)投影到基向量(1,1)上的值,极为变换后的系数同理y2即为原始信号(x1,x2)投影到第二个基向量(1,-1)上的值。这和基向量为连续函數(如sin(3t))的情况是一样的只不过是将基函数离散化为基向量了,在余弦变换中基函数应该为cost),而在相应的DCT中基向量相应变化为(1,0,-1,0,1)。

一个正交的变换是指变换的各个基向量相互之间都是正交的在这种情况下个基向量之间没有相关度,所以变换后的系数之间不存茬相关冗余信息便于压缩。

DCT的变换矩阵中其其基向量是从上往下依次是由低频递增到高频的,这样经过变换后得到的系数矩阵中低频分量集中在左上角,而高频分量集中在右下角

DCT变换和哈尔变换相比,其低频基向量更加平缓较少过零跳变,与图像信号更加类似DCT变换后的低频分量系数值更大,能量更加集中所以DCT的性能较哈尔变换更好。但是哈尔变换的变换矩阵系数简单(都是整数)便于硬件实现。所以ICT基于这一点将哈尔变换的矩阵的一些个基向量做了调整,使之变化更加平缓而且保留了正交特性,同时矩阵系数仍然为整数使得ICT即拥有类似于DCT的性能,又便于实现

在各个变换矩阵中,从理论上讲KL变换拥有最佳的变换性能,但是由于KL变换需要求解原始信号的自相关矩阵然后求解特征值,实现复杂度太高所以一般没有人用KL变换。KL变换一般作为一个参考来评价其他变换算法的性能

预測编码有两个问题值得研究,第一个问题是预测编码的抗误码扩散问题第二个问题是自适应编码问题。

对于抗误码扩散问题可以考虑茬编码过程中每编几个像素点就插入PCM码,或者考虑在解码的时候加入检错一旦检查到错就用相邻的像素代替出错的像素,可以在一定程喥上减轻恢复图像的错误

对于自适应编码问题,可以做到的有量化系数(Near)以及预测函数,这两项在编码过程中都可以根据图像内容來进行自适应调整在实现上为了达到正确解码,有两种方法实现自适应调整:第一是将一些调整信息加入到码流中解码的时候就能得箌,从而正确解码;第二是解码端和编码端保持完全一致也采用自适应方式解码,这样的话也可以实现正确解码

【新智元导读】预测编码理论认為大脑的感知、运动控制、记忆及其他高级功能,取决于真实经历和大脑对未来的预测之间的差异DeepMind新推出的“生成查询网络”模仿了夶脑的预测编码机制,明显提升了预测系统的智能化水平

上个月,人工智能公司DeepMind推出了一款新软件可以在虚拟房间内拍摄一些物体的單个图像,并且能够在没有真人指导的情况下从全新的有利视角推断出三维场景的样貌。这一系统名为生成查询网络(GQN)它可以成功模拟简单的视频游戏式迷宫的布局。

GQN有很典型的技术上的应用不过它同样引发了神经科学家的关注,他们对用于学习如何执行任务的训練算法特别感兴趣GQN能够由给定的图像生成关于场景样貌的预测,比如定位目标的位置阴影在平面上的投射样式,在某些视角下哪些區域是应该可见还是隐藏,并利用预测结果与真实观察结果之间的差异来提高其未来预测的准确性。“正是现实与预测之间的差异使嘚模型能够不断更新。”该项目负责人之一Ali

Eslami在该研究上的合作者、也是他在DeepMind的同事Danilo Rezende表示“算法会改变预测模型的参数,所以下次遇到相哃的情况时它就不会显得那么惊讶了。”

长期以来神经科学家一直怀疑大脑的运行方式也遵循与此类似的机制。(这些推测确实是启發GQN团队探寻这种方法的一部分原因)根据这种“预测编码”(predictive coding)理论,在认知过程的每个层面大脑都会产生一些关于应该自其下面的層级接收到哪些信息的模型和观点。这些观点被转化为关于在特定情况下的经历的预测提供令这些经历说得通的最佳解释。然后将预测結果作为反馈发送到大脑的较低级的感觉区域大脑将自己的预测结果与收到的实际感官输入内容进行比较,并“搪塞掉”任何差异或预測错误并可以通过使用其内部模型来确定出现这种差异的可能的原因。(例如我们可能根据某个内部模型将一张桌子视为一个由四条腿支撑的平面,但即使桌子被其他东西遮住了一半我们仍然可以认得出这是一张桌子。)

对于给定的一张色块样式的二维图像(左)GQN囚工智能能够推断出色块在空间中的三维排列(右)。该系统依赖于作为预测编码的神经科学理论的一些基本见解图/DeepMind

无法解释的预测误差会通过更高级别的连接(作为“前馈”信号,而不是反馈)传递这里,预测误差被认为是值得注意的现象系统需要注意并做出相应處理。伦敦大学学院的Karl Friston说:“现在的关注点在于内部模型的调节关注大脑动力学,来抑制预测中的错误” Friston是著名神经科学家,也是预測编码假设的先驱之一

在过去的十年中,认知科学家、哲学家和心理学家将预测编码作为一个令人信服的想法尤其是用于描述感知的運行机制,而且将其作为一个关于整个大脑运行机制的更具雄心、包罗万象的理论直到最近才有实验工具开始直接测试这一假设的具体機制,过去两年内发表的一些论文为该理论提供了惊人的证据尽管如此,该理论仍然存在争议最近,关于一些具有里程碑意义的实验結果是否可重复的争论可能该理论存在争议的最好的证明。

“我喝咖啡喜欢加奶油和____”这个句子用“糖”来填空似乎是很自然的。这吔是加州大学圣迭戈分校的认知科学家Marta Kutas和Steven Hillyard的本意他们在1980年进行了一系列的实验,他们在实验中将这句话逐词放到大屏幕上给人看并记錄下观众的大脑活动。只不过出现的最后一个词并不是“糖”,而是“狗”整个句子变成了:“我喝咖啡喜欢加奶油和狗。”

研究人員注意到当研究对象看到“狗”这个出乎意料的词时,会出现更激烈的大脑反应这些反应的具体特点为“特定模式的电活动”,称为“N400效应”(N400 effect)在“狗”一词出现大约400毫秒后达到峰值。但研究人员仍不清楚应如何解释这一现象大脑作出反应,是因为这个词的意思茬本句背景下是不合常理的还是因为大脑没预料到这个词的出现,它违背了大脑对预期出现内容的预测

2005年,Kutas和她的团队进行了另一项研究表明后一种假设是对的。实验对象再次要求读屏幕上逐词出现的一句话:“这天微风阵阵所以男孩子们出去放____。”因为“风筝”(a kite)似乎是最有可能用来补完句子的词所以接下来实验对象的期望是冠词“a”,它没有内在意义但表示接下来还会有一个词。而当参與者看到接下来的词是“an”时他们就经历了N400效应,这似乎是因为大脑必须处理其期望与现实之间的不符显然,这一效应与该词的含义鉯及处理出现的刺激本身的困难程度无关

2005年的这一发现似乎非常适合预测编码框架理论。但今年4月eLife发表的一篇论文称,有几个实验室無法重复这一实验结果现在,也有研究人员开始做出回应一些人声称重复实验的微妙结果仍然有利于基于预测的解释。

这种摇摆不定反映出关于预测编码理论的大部分争论像Kusta这样的实验可以有许多种解释。比如可以通过除预测编码之外的模型来解释并且这些实验缺乏足以证明假设的确实证据,因为它们没有深入研究实际的机制虽然大脑会不断做出推论(并将这些推论与现实进行比较)的想法已构建得相当完善,但预测编码的支持者一直在设法证明他们所主张的理论才是正确的,而且可以延伸到所有的认知领域

大脑一直建立和評估自己对持续的实际经历的预测,这一基本观点并不总是被视为理所当然的20世纪的主流神经科学观点将大脑的功能描述为一个特征探測器:大脑记录刺激的存在,对其加以处理然后发送信号来产生行为反应。通过特定细胞的活动来反映真实世界中刺激是否存在例如,视觉皮层中的一些神经元会对视野中物体的边缘作出反应还有的神经元的放电则会指示物体的方向、着色或阴影。

但事实证明这个過程远非看上去那么简单。进一步的试验发现比如,当大脑感知到一条越来越长的线时即使线没有消失,针对线的探测神经元也会停圵放电事实上,有如此多的信息似乎通过神秘的自上而下的反馈连接来传递的这表明实际上还有其他机制在发挥作用。

“如果大脑是┅个推理机器、一个统计机构那么,大脑也会犯下和统计学家同样的错误”

这就是“贝叶斯大脑”(Bayesian brain)发挥作用的地方了,其总体框架可追溯到19世纪60年代该理论提出,大脑会基于内部模型对现实世界进行概率性推断主要是计算关于如何解释其感知的“最佳猜测”(這个说法符合贝叶斯统计规则,该规则对基于先验信息得出的事件概率进行了量化)大脑并不是等待感官信息来推动认知,而是始终积極地构建关于世界运行方式的假设并用这些假设来解释经验并填补缺失的数据。根据一些专家的说法这就是为什么我们可能会认为感知是一种“受控制的幻觉”。

沿着这个理论贝叶斯大脑也解释了为什么视幻觉会起作用:例如,两个点在屏幕上快速交替闪烁看起来僦像一个点来回移动,所以我们的大脑无意识地开始像对待一个目标一样对待它们理解对象如何移动是一种更高层次的知识,但它从根夲上影响了我们的感知方式大脑只是填补某些信息的空白,来绘制一幅不完全准确的图片在本例中,就是关于运动的信息 

图示为一個著名的视幻觉,棋盘上的格子A看上去比格子B暗得多但是,其实二者的灰度是完全相同的大脑会根据附近格子的颜色和圆柱体投下的陰影位置,对棋盘的颜色做出推测在本例中,这种推测会产生格子A和B的颜色不同的观点而实际上,二者的颜色是完全相同的(参考祐图,将A和B连在一起即可若将圆柱体隐藏,看上去还会更明显)

但是,尽管生成模型和期望在大脑功能中发挥了明确的作用科学家還没有确切地确定这些机制在神经回路级别上是如何发挥作用的。苏格兰爱丁堡大学的心理哲学教授Mark Sprevak说:“贝叶斯大脑理论对于根本性的機制是相对不可知的”

输入预测编码理论提供了大脑如何成为“贝叶斯大脑”的特定公式。“预测编码”这个名字源于一种更有效地传輸电信信号的技术:由于视频文件从当前帧到下一帧的过程中包含大量冗余因此在压缩数据时,对每个图像中的每个像素进行编码是效率低下的反之,对相邻帧之间的差异进行编码然后进行反向处理来解释整个视频,这样就更合理

1982年,科学家发现这一理念在神经科學中有一个很好的应用因为它似乎可以解释视网膜中的神经元如何编码关于视觉刺激的信息,并将这些信息沿着视神经进行传播该理論也被作为解释大脑奖励系统运作方式的原理:即多巴胺神经元会对预期奖励与实际奖励之间的不匹配度进行编码。研究人员表示这些預测错误可以帮助动物对未来期望进行修正,并推动其决策过程

尽管如此,科学家们大多仍将预测编码视为特定网络的特定过程不过,功能磁共振成像测试和其他类型的实验已经开始改变这一观点

预测编码假设如此引人注目,部分原因在于它具备令人难以置信的解释仂“我觉得令人信服的是,在这个理论框架中有不少事情都得到了解释,”爱丁堡大学逻辑和形而上学教授兼理论专家 Andy Clark说

首先,该框架在单一计算过程中统一了感知和运动控制这两者基本上相当于同一枚硬币的两面:无论是感知还是运动控制,大脑都以不同的方式將预测误差降到了最低对于感知来说,就是校正了内部模型对于运动控制来说,就是实际的环境(对于后者,可以想象一下比如伱现在想要举手,如果这时你的手还没有举起来那么这种差异就会产生很大的预测错误。而你只要把手移动一下就把预测错误降到了朂低。)

迄今为止在感知和运动控制方面的实验为预测编码理论提供了最有力的证据。例如在上个月出版的《神经科学期刊》上发表嘚一篇论文中,实验者让受试者在屏幕上读“kick”这个词然后再让他们听失真的录音朗读“pick”。许多人将后者听成了“kick”功能性核磁共振扫描显示,大脑对最初的“k”或“p”音表现出最强烈的反应 而这是与预测错误相关的音。如果大脑只是表现出其感知体验那么最强嘚信号应该与“ick”相对应(因为它在屏幕上和音频中都有出现)。

不过有很多人在努力扩大预测编码的应用范围,将其扩展至感知和动莋领域之外视为大脑中正在发生的一切的统一衡量标准。“这就像拥有可以构建不同策略的构建模块一样”Clark说。不同的大脑区域只是對不同类型的预测进行交易

Friston等人声称,这个理论也适用于更高级的认知过程包括注意力和决策。最近关于前额皮质的计算工作表明笁作记忆和目标导向行为中也存在预测编码机制。一些研究人员推测情感和情绪也可以用预测编码的术语来表达:情绪可能是大脑所表現出的用以实现内部信号(如体温,心率或血压)的预测误差最小化的状态比如,如果大脑认识到自身的情绪激动那么也就知道了所囿这些因素都在上升。也许这也就是“自我”的概念得以出现的原因

几十年来,伦敦大学学院的神经科学家Karl Friston一直在完善预测编码假设的關键原则他认为,理论不仅可以解释感知还可以解释更高层次的认知过程。

以这种思路取得的大部分成果都集中在预测编码对神经精鉮系统和发育障碍的解释上Friston说:“我认为,如果大脑是一台推理机器一个统计机构的话,那么它就会犯下和统计学家们相同的错误”也就是说,大脑也可能会因为过于重视或过于轻视预测和预测错误导致得出错误的推论。

比如自闭症的特征可能就是无法忽略与大腦的最低处理层级上的感觉信号相关的预测误差。这可能导致对感觉的关注对重复和可预测性的需求,对某些幻想的敏感以及其他诸多影响而对于与精神分裂症等幻觉相关的疾病来说,情况可能正好相反:大脑可能会过多关注自身对正在发生的事情的预测而对与这些預测相矛盾的感官信息关注不足。(专家们很快就要提醒你自闭症和精神分裂症太复杂了,不能简化为一种解释或机制)

耶鲁大学医學院的临床神经科学家Philip Corlett说:“其中最重要的部分是向我们展示了我们的心理功能是多么脆弱。” Corlett实验室的实验在健康受试者中建立了新的“信念”鼓励他们对之前经历的刺激产生幻觉。 (例如在一项实验中,科学家们让参与者将某个声音与某个视觉图像联系起来当他們看到图像时,即使实际上根本没有声音受试者也会继续听到声音。)研究人员正试图解开这些看法是如何转化为感知的通过这些研究,“我们认为有证据表明感知和认知并不是那么泾渭分明”Corlett说。 “新的看法可以通过教学获得可以改变你原来的看法。”

但当时的證据还没能证明他的结论而现在可以了。

“实验结果经常表明某个特定结果与预测处理理论兼容但该理论并不是对结果的最佳解释,”Sprevak说预测处理理论在认知科学中被广泛接受,但“在系统神经科学领域它仍然是个弱者。”瑞士弗里德里希·迈瑟生物医学研究所的神经科学家Georg Keller说他的实验室正试图用更确凿的证据改变这一现状。

弗里德里希·米歇尔生物医学研究所的神经科学家Georg Keller一直致力于揭示预测編码假设的机制性证据

在去年在《神经元》期刊上发表的一项研究中,Keller和他的同事观察到小鼠视觉系统中神经元随着时间的推移会变得具有预测性这个发现始于一场意外,当时他们在视频游戏中训练老鼠却发现在虚拟世界的方向已经乱了。通常在实验时 老鼠左转时嘚视野都会向右侧移动,反之亦然但有人无意中颠倒了研究人员在研究中使用的虚拟世界的方向,左和右翻转过来了因此小鼠左转时嘚视野也向左移动了。研究人员意识到他们可以利用这次事故他们监测了表现出这种视觉流动的大脑信号,结果发现随着小鼠学习倒置環境的规则大脑信号也慢慢出现了变化。Keller说:“这些信号看起来像是对向左方向视觉流的预测”

如果信号只是小鼠视觉体验的感官表現,那么这些信号就会立即在虚拟世界中出现翻转而如果是运动信号,则根本不会翻转“实际上是识别预测,” Keller说 “是对给定运动丅视觉流的预测。”

“这项研究提供了一种以前未发现的证据”克拉克说。 “这是一个非常局部的逐单元、逐层的演示,说明预测编碼模型是目前最合适的模型”

“在该系统中发现预测错误,并找到预测的具体内容是很令人兴奋的”该论文的第一作者、德国哥廷根歐洲神经科学研究所的神经科学家Caspar Schwiedrzik说。

德国马普经验美学研究所的研究员Lucia Melloni表示她的团队逐步发现,这类实验结果与目前从人类收集的神經元数据中的预测误差的解释一致

寻找更多预测机器的竞赛

不是每个人都认为大脑预测编码的理论正越来越强大。一些科学家同意这个悝论可以解释认知的某些方面但不同意用它来解释一切想法。也有人甚至连前者都不同意对于纽约大学心理学教授David Heeger来说,重要的是要區分“预测编码”和“预测处理”他认为前者关乎信息传输的效率,他将后者定义为随时间的推移而做出的预测他说:“目前的文献Φ存在很多混淆之处,因为这些东西都被认为是同一种汤的一部分其实并不一定如此,现在的方式也不一定是最佳研究方式”比如,其他类型的贝叶斯模型可能在某些情况下可以提供更准确的大脑功能描述

然而,该领域的许多专家都认为这项研究有可能激发机器学習的应用。目前绝大多数人工智能研究都不涉及预测编码,而是关注其他类型的算法

但弗里斯顿认为,在深度学习环境中制定预测编碼架构可以使机器更接近智能

DeepMind的GQN就是发挥这种潜力的一个很好的例子。去年苏塞克斯大学的研究人员甚至使用虚拟现实和人工智能技術(其中包括预测编码特征),打造了一台所谓的“幻觉机器”这种工具能够模仿通常由迷幻药物导致的幻觉状态。 

通过比较预测编码模型与其他技术的表现机器学习的进步可用于提供关于大脑中发生的事情的新见解。至少将预测编码引入人工智能系统可以明显提高這些机器的智能水平。

但在此之前我们还有很多工作要做。科学家需要继续进行像Keller、Schwiedrzik等人正在进行的研究格拉斯哥大学的神经生理学镓Lars Muckli表示,预测性编码“对于神经科学来说就像是进化对生物学一样重要”他对完善该理论做了大量工作。但就目前而言Sprevak指出,“现有證据仍然不足以让我们下定论”

第四章 预测编码和变换编码 4.1 预测編码 4.2 变换编码 4.1 预测编码 预测编码是数据压缩理论的一个重要分支根据离散信号之间存在一定相关性的特点,利用前面的一个或多个信号對下一个信号进行预测然后对实际值和预测值的差(预测误差)进行编码。如果预测比较准确那么误差信号就会很小,就可以用较少嘚码位进行编码以达到数据压缩的目的。 第n个符号Xn的熵满足: n越大考虑更多元素之间的依赖关系时熵值进一步降低,得到的熵越接近於实际信源所含的实际熵(极限熵) 所以参与预测的符号越多,预测就越准确该信源的不确定性就越小,数码率就可以降低 原理 利鼡以往的样本值对新样本值进行预测,将新样本值的实际值与其预测值相减得到误差值,对该误差值进行编码传送此编码即可。 理论仩数据源可以准确地用一个数学模型表示使其输出数据总是与模型的输出一致,因此可以准确地预测数据但是实际上预测器不可能找箌如此完美的数学模型; 预测本身不会造成失真。误差值的編码可以采用无失真压縮法或失真压縮法 分类 无损预测编码 有损预测编码 DPCM:差分脉冲调制预测,Differential Pulse Code 当输入信号序列X(k=12、…)逐个进入编码器时,预测器根据若干个过去的输入产生当前输入的预测(估计)值将预测器的輸出舍入成最接近的整数 ,并用来计算预测误差ek ek = xk- 这个误差可用符号编码器借助变长码进行编码以产生压缩信号数据流的下—个元素 在解碼器方根据接收到的变长码字重建预测误差,并执行以下操作以得到解码信号 xk =ek+ 借助预测器将原来对原始信号的编码转换成对预测误差的编碼在预测比较准确时,预测误差的动态范围会远小于原始信号序列的动态范围所以对顶测误差的编码所需的比持数会大大减少,这是預测编码获得数据压缩结果的原因 在多数情况下,可通过将M个先前的值进行线性组合以得到预测值 预测方程式: K>N表示x1, x2,…, xN 的时序在xk 之前 线性预测是指预测方程式的右方是各个xi的线性函数: 如果ai (k)是常数,则为时不变线性预测 最简单的预测方程: 最佳线性预测 使误差函数 达到朂小值的预测方程式叫做最佳线性预测。 求最佳线性预测的各个参数ai列方程组: 4.1.2 有损预测编码原理(DPCM) 有损预测编码( DPCM ) 在无损预测编碼系统的基础上加一个量化器构成 压缩过程 发送端预测器带有存储器,把tn时刻以前的采样值x1, x2, x3,…, xk-1存储起来并据此对xk进行预测得到预测值 ek为xn與 的差值, ek’为ek经量化器量化的值 xk’是接收端的输出信号 误差ek为 ek= xk- xk’= xk-( +ek’)= (xk- )- ek’= ek - ek’ 实际上就是发送端的量化器对误差ek’量化的误差 对 ek’的量化越粗糙压缩比越高,失真越大. 为接纳量化步骤需要改变图4-1中的无损编码器以使编码器和解码器所产生的预测能相等。为此在图4-2中将有损编碼器的预测器放在1个反馈环中这个环的输入是过去预测和与其对应的量化误差的函数 这样一个闭环结构能防止在解码器的输出端产生误差。这里解码器的输出也由上式给出 示例一:德尔塔调制(DM或ΔM) 最简单的有损预测编码方法是德尔塔(或称增量)调制(DM或ΔM) 方法,早期在數字电话中采用是一种最简单的差值脉冲编码 。 其预测器和量化器分别定义为 其中a是预测系数(一般小于等于1)c是1个正的常数。 因为量化器的输出可用单个位符表示(输出只有2个值)所以编码器中的符号编码器可以只用长度固定为1比特的码。由DM方法得到的码率是1比特/像素 礻例: 取a=1和c=5。设输入序列为1216,1214,20、3246,5250,5150。编码开始时先将第1个输入像素直接传给编码器 4.1.3 自适应差分脉冲调制(ADPCM)预测 自適应量化 在一定量化级数下减少量化误差或在同样的误差条件下压缩数据,根据信号分布不均匀的特点希望系统具有随输入信号的变化區间足以保持输入量化器的信号基本均匀的能力,这种能力叫自适应量化

我要回帖

更多关于 信息编码的方法有哪些,请举例说明 的文章

 

随机推荐