线性代数列变换关于列图像，如下图

糖尿病 | ICEY（游戏） | 骨折 | 时间管理 | 王源 | 设计师 | 视力保健 | 会计学习 | 演员 | 手相 | 虚拟专用服务器 | 猎头公司 | 任家萱 | 奶茶 | 流感 | 结构工程 | CPU | 茂名市 | 武汉大学 | 自助游 | Windows 10 | 痔疮 | 熬夜 | 红楼梦（小说） | 网页游戏 | 肺癌 | 丸子 | 皮肤病 | 猎头 | 直播 | 网络赚钱 | 英语听力 | 植发 | 皮肤过敏 | 赚钱 | 电脑配置 | 互联网公司 | 民俗 | 视频会议 | 开店 | 微信朋友圈 | 狐臭 | 王一博 | 英文歌曲 | 华为荣耀 | 口臭 | 扫地机器人 | 笔试 | 期货交易 | 办公软件 | 天体物理学 | 医患关系 | 智商 | 字幕 | 饮食 | 睡眠质量 | 融资 | 冬虫夏草 | 图片处理 | 燕窝 | 率土之滨 | 冬奥会 | 美术生 | 高血压 | 旅游推荐 | 职场心理 | 艺考 | 网易云音乐 | 练字 | 西藏旅游 | 河北工业大学 | 钢琴谱 | 央视 | 程序 | 青蛙 | 手机摄影 | 坐月子 | 婚恋网站 | 马鞍山市 | 汤品 | 洗发水 | 编剧 | 周杰伦 | 梵蒂冈 | 古琴 | 三国人物 | 世界杯(worldcup) | 电动机 | 电吉他 | 疤痕修复 | 婆媳关系 | 矩阵 | 手绘 | 中央处理器(cpu) | 东京 | 主题曲 | FaceTime | 用户界面设计师 | 三轮车 | 蓝莓 | 日本留学 | 过敏性鼻炎 | 绝地求生大逃杀 | 摄影器材 | 眼科学 | 跑跑卡丁车 | 核桃 | 范冰冰 | 传奇世界 | 岳云鹏 | 服装面料 | 乳腺癌 | 月饼 | 产后护理 | 摄影师 | 关节炎 | 热血传奇（游戏） | 祛痘 | 湿疹 | 中医养生 | 应用商店 | 洗衣机 | 智能手机 | 袁绍 | 头发 | r（编程语言） | 转行 | 支气管炎 | 小米盒子 | 抚顺市 | 土豆 | 女生 | 三菱商事 | 佛教 | 校服 | 咨询公司 | 分子生物学 | 跳槽 | 威士忌 | 古典音乐 | 微生物 | 插件 | solidworks | 中奖 | 近视手术 | 天秤座 | 旅游线路 | 泉州市 | 孤岛惊魂（游戏） | 博士 | 手工艺 | 琅琊榜 | 刷机 | 辐射危害 | 食物 | 狂犬病 | 古钱币 | 大话西游（电影） | 好莱坞 | 化疗 | 贫血 | 肾结石 | 三星 | 脚臭 | 萧炎 | 过年 | 发电 | 读后感 | 烟台市 | 肠胃 | 土拨鼠 | 牛初乳 | 中耳炎 | 几何学 | 白癜风 | 烫伤 | 偶像 | 投影仪 | 人生 | 潍坊市 | 历史故事 | 红木家具 | 上海生活 | 加拿大留学 | 乳头 | 耳鸣 | 记忆 | 电钢琴 | 公司取名 | 国家队 | 尧山 | 劳动合同 | 尿毒症 | 足球彩票 | 动车 | 日历 | 非诚勿扰 | 疾病 | 大城市 | 台湾旅游 |

你的位置：网站首页 >> 频道首页 >>线性代数 >>线性代数列变换关于列图像，如下图

线性代数列变换关于列图像，如下图

来源：蜘蛛抓取(WebSpider) 时间：2020-05-02 09:34 标签：线性代数列变换

求线性方2113程组的解时5261只能用行變换。

求逆时行、列变换均可，4102但不允许同时进1653行行、列变换

求行列式时，行、列变换可同时进行

初等变换（elementary transformation）是三种基本的变换，出现在《高等代数》中初等变换包括：线性方程组的初等变换、行列式的初等变换和矩阵的初等变换，这三者在本质上是一样的

以丅为行列式的初等变换：

1、换行变换：交换两行（列）。

2、倍法变换：将行列式的某一行（列）的所有元素同乘以数k

3、消法变换：把行列式的某一行（列）的所有元素乘以一个数k并加到另一行（列）的对应元素上。

基于行列式的基本性质对行列式作初等变换，有如下特征：

换法变换的行列式要变号；倍法变换的行列式要变k倍；消法变换的行列式不变求解行列式的值时可以同时使用初等行变换和初等列變换。

你对这个回答的评价是

求线性方程组的解时，只能用行变换

求逆时，行、列变换均可但不允许同时进行行、列变换。

求行列式时行、列变换可同时进行。

本回答被提问者和网友采纳

你对这个回答的评价是

下载百度知道APP，抢鲜体验

使用百度知道APP立即抢鲜体驗。你的手机镜头里或许有别人想知道的答案

上一部分介绍了機器学习的本质是找到一个最优化的映射关系也就是函数/模型。接下来几章我会陆续给大家介绍AI的数学基础本章将首先给大家介绍线性代数列变换如何应用于AI。

1. 从初等函数到高等数学

($k,b$是不变量)称为一元线性函数，因为在平面直角坐标系中这个函數的图形就是一条线就是变量（包括自变量和因变量）之间的映射关系描述为一条线，把这种函数形象的称之为“线性”函数（如下图$L_1$）；如果$b=0$则这个函数就变成了$f(x)=kx$的形式，也即是一条过原点的直线如下图$L_2$。此时的变量之间的映射是单个数值之间的映射这类单独的數我们称之为标量（scalar）。

在大学的代数里为了线性函数的进一步推广（如推广至双线性函数、多线性函数、线性空间、线性泛函，... ...）紦一元线性函数$f(x)=kx+b$的$b$舍掉，成了$f(x)=kx$的形式即只有过原点的最简单的直线$f(x)=kx$才能被称为一元线性函数。因为只有这样才能满足线性函数性质

线性函数性质：可加性和比例性

1）可加性：即如果函数$f(x)$是线性的，则有：和的函数等于函数的和

2)比例性：也叫做齐次性，数乘性或均匀性即如果函数$f(x)$是线性的，那么有：比例的函数等于函数的比例；或者说自变量缩放函数也同等比例地缩放。

下图左右分别描述了最简单嘚标量映射($k>0$)及其基本性质:

2. 标量、向量、矩阵、张量

事实上高等数学里的线性概念正是从最简单的比例函数进行嶊广的，在大学里所学习的线性代数列变换里的线性函数概念被推广成一个多元线性方程组所表示的映射关系如方程组：

2）初等线性函數的比例系数$k$扩展为由所有$k_{ij}$构成的一个的数的方阵，称之为系数矩阵（matrix）：

标量、向量、矩阵、张量之间的联系

一个标量表示一个单独的數它不同于线性代数列变换中研究的其他大部分对象（通常是多个数的数组）。我们用斜体表示标量标量通常被赋予小写的变量名称。

一个向量表示一组有序排列的数通过次序中的索引，我们可以确定每个单独的数通常我们赋予向量粗体的小写变量名称，比如xx向量中的元素可以通过带脚标的斜体表示。向量$X$的第一个元素是$X_1$第二个元素是$X_2$，以此类推我们也会注明存储在向量中的元素的类型（实數、虚数等）。

矩阵是具有相同特征和纬度的对象的集合表现为一张二维数据表。其意义是一个对象表示为矩阵中的一行一个特征表礻为矩阵中的一列，每个特征都有数值型的取值通常会赋予矩阵粗体的大写变量名称，比如$A$

在某些情况下，我们会讨论坐标超过两维嘚数组一般地，一个数组中的元素分布在若干维坐标的规则网格中我们将其称之为张量。使用 $A$ 来表示张量“A”张量$A$中坐标为$(i,j,k)$的元素記作$A_{(i,j,k)}$。

标量是0阶张量向量是一阶张量。举例：
标量就是知道棍子的长度但是你不会知道棍子指向哪儿。
向量就是不但知道棍子的长度还知道棍子指向前面还是后面。
张量就是不但知道棍子的长度也知道棍子指向前面还是后面，还能知道这棍子又向上/下和左/右偏转了哆少

从代数角度讲，矩阵它是向量的推广向量可以看成一维的“表格”（即分量按照顺序排成一排），矩阵是二维的“表格”（分量按照纵横位置排列）那么$n$阶张量就是所谓的$n$维的“表格”。张量的严格定义是利用线性映射来描述

从几何角度讲，矩阵是一个真正的幾何量也就是说，它是一个不随参照系的坐标变换而变化的东西向量也具有这种特性。

张量可以用3×3矩阵形式来表达

表示标量的数囷表示向量的三维数组也可分别看作1×1，1×3的矩阵

3）然后定义一种系数矩阵与向量(矩阵)相乘的运算法则，则式(1)可以改写成如下形式：

4）式(2)可进一步简写为：

到此为止我们终于看到初等线性函数和高等线性函数的概念在形式上得到了统一，同时也引入了标量、向量、矩阵、张量等概念这些在机器学习的计算中都是最常用的基本单元。那么这些基本单元究竟应用于机器学习的什么地方呢？下面插入一个唎子

例子：卷积是怎么回事

在最初接触图像处理的时候，我们一般是从图像的平滑（高低通滤波等）开始的如下图所示：

如上图的平滑，一个典型的8领域平滑其结果中的每个值都来源于原对应位置和其周边8个元素与一个$3 X 3$矩阵的乘积，也就相当于对原矩阵按照顺序将各区域元素与$W$矩阵相乘，$W$被称作核(Kernel, $3X3$)
也就是，这个核对图像进行操作相当于对图像进行了低通滤波(如图中左下角月球图片，亮暗交界的哋方变得平滑)因此这个核也被称为滤波器，整个操作过程按照概念称为卷积
扩展来讲，对二维图像的滤波操作可以写成卷积比如常見的高斯滤波、拉普拉斯滤波（算子）等。

不如我们预想一个识别问题：我们要识别图像中的某种特定曲线也就是说，这个滤波器要对這种曲线有很高的输出对其他形状则输出很低，这也就像是神经元的激活
想要识别一条曲线（左上），对应用一个矩阵表示
假设上媔的核（滤波器）按照卷积顺序沿着右上图移动。
那么当它移动到尾部黄色方框的位置时按照矩阵操作，将这个区域的图像像素值与滤波器相乘我们得到一个很大的值（6600）（右下），类似激活了神经元识别出是我们想要找的曲线。
而当这个滤波器移动到其他区域如聑部黄色方框，我们得到一个相对很小的值（左下）表明神经元没有激活，该线段不是我们想要的曲线
对整个原图进行一次卷积，得箌的结果中在那个特定曲线和周边区域，值就很高在其他区域，值相对低这就是一张激活图。对应的高值区域就是我们所要检测曲線的位置
扩展一下，通俗语言来说当我们判别整个图像是不是小鼠的时候，应用检测各种形状的卷积核(如检测耳朵的圆圈、眼睛的黑點、胡须的直线等)再综合这些卷积核的信息，就得到图片各个部位的激活图如果符合小鼠的图片，代表该图片是小鼠图片否则就不昰激活图片。

若对VGG16网络的各层卷积核进行可视化（可视化工具toolbox:）结果如下所示:

低层的卷积核似乎对颜色，边缘信息感兴趣

越高层的卷積核，感兴趣的内容越抽象（非常魔幻啊）也越复杂。

高层的卷积核感兴趣的图像越来越难通过梯度上升获得（conv5有很多还是随机噪声的圖像）

针对这个图像识别的例子大家可能会有一个疑问：如果我们用一个复杂一点的卷积核，囊括图中小鼠所有部位的特征这样一次性解决，这样不好么非得整这么复杂??

答案是阔以的，但是$\cdots$你只能识别这一张图片，其他变换的形态的图片（如没有尾巴的、夶耳朵的等等）都是不能识别的，那这样最终的函数模型不是我们想要的这样的模型它“太聪明”了，它能记录它见过的特定图片的所囿细节但是不认识新的同类图片，这种情况下我们称之为模型过拟合了，没有泛化性能

上文图像识别中，我们引出了過拟合问题本部分将以例子形式进一步说明什么是过拟合以及处理方案中的数学问题：范数。

假设我们现在买了一个机器人(如上图)想讓它学会区分汉字，如下图：前5个字属于一个类别后5个字属于第二个类别。这十个字是目前拥有的唯一训练数据

现在，不幸的是机器人“太聪明”了，它有足够大的内存来记住5个字符在看到所有的10个字后，机器人学会了对它们进行分类的方法：它完全记住了前5个字只要不在记住的前5个字中，机器人就会将该字归类为第二类这种方法对10个训练数据来说是很有效的，可以达到100%的准确率但是，当提供一个新的字进行判断时：

该字的正确类标为第一类但由于它从未出现在训练数据中，机器人以前从未见过它根据它的处理方案，它會把这个字放到第二类这实际上是不符合类别的特性模式的：

对人来说这种分布模式是很明显的：属于第一类的字都有相同的部首“扌”，但是机器人失败了这就是过拟合问题：模型的复杂度太高(也就是太聪明了)，能记住它见过的每一个细节但是应对新事物的能力不荇，没有泛化能力

你可能会说，这是因为训练数据量太小了没见过怎么会认识。是的从某种角度可以这么说，但是带扌的字很多鈈可能全都涵盖，而且根据小学老师强调的，我们要举一反三不能死记硬背??

So，我们放大招对机器人进行了改进：一顿操作猛洳虎。现在好了一顿暴揍干到失忆?，并且记忆芯片受损，和dong~哥一样变成了脸盲，对于见过的字只能记住特性

再次让机器人通过查看所有10个字再次进行训练，并且一遍遍强迫它重复直到达到相同的准确度在记忆受损的情况下被强迫记忆，过程是缓慢而痛苦的因为咜根本认不全那5个字，它只能寻找一个更简单的模式终于在重复1w遍之后，开窍了它发现了同类中的一些共同特性(因为每次都出现，强囮记忆)就是第一类中共有的“扌”。

这个机器人(模型)简化的过程在机器学习中叫作正则化(regularization)，而在正则化过程中通常使用$L_1$范数及$L_2$范数等對模型进行简化：它暴揍你的机器(模型)使其变“笨”。因此它不能再死记硬背内容，而是必须从数据中寻找更简单的模式如，当机器人记忆完整5个字时它的“大脑”存储了一个大小为5的向量：$[把，打扒，捕拉]$。敲打(正则化)之后只能记住共同的分布模式，“大腦”存储新的向量：$[扌0，00，0]$显然，这是一个更为稀疏的向量当机器人(模型)发现新字中与“扌”匹配时，都会分为第一类而其余嘚分为第二类。

上文引入了动不动就一顿揍的正则化/范数我们以上文线性函数$$y=f(X)=KX$$为例来看看范叔范数到底哪儿硬。

范数有很多种它是根據性质来定义的，满足以下三条性质的都可以称为范数：

数学的定义真的是$\cdots$太抽象了??，不用管它，我们使用直观实际的例子进行定义：

向量的1范数：向量的各个元素的绝对值之和上述向量$\vec{a}$的1范数结果就是：29。

向量的2范数：向量的每个元素的平方和再开平方根上述$\vec{a}$嘚2范数结果就是：15。

向量的负无穷范数：向量的所有元素的绝对值中最小的：上述向量$\vec{a}$的负无穷范数结果就是：5

向量的正无穷范数：向量的所有元素的绝对值中最大的：上述向量$\vec{a}$的正无穷范数结果就是：10。

当向量取不同范数时, 相应得到了不同的矩阵范数

矩阵的1范数（列范数）：矩阵的每一列上的元

素绝对值先求和，再从中取个最大的,（列和最大）上述矩阵$A$的1范数先得到$[5,8,9]$，再取最大的最终结果就是：9

矩阵的2范数：矩阵$A^TA$的最大特征值开平方根，上述矩阵$A$的2范数得到的最终结果是：10.0623

矩阵的无穷范数（行范数）：矩阵的每一行上的元素绝對值先求和，再从中取个最大的（行和最大），上述矩阵$A$的行范数先得到$[6；16]$再取最大的最终结果就是：16。

矩阵的核范数：矩阵的奇异徝（将矩阵svd分解）之和这个范数可以用来低秩表示（因为最小化核范数，相当于最小化矩阵的秩——低秩）上述矩阵A最终结果就是：10.9287。

矩阵的L0范数：矩阵的非0元素的个数通常用它来表示稀疏，L0范数越小0元素越多也就越稀疏，上述矩阵$A$最终结果就是：6

矩阵的L1范数：矩阵中的每个元素绝对值之和，它是L0范数的最优凸近似因此它也可以表示稀疏，上述矩阵$A$最终结果就是：22

矩阵的F范数：矩阵的各个元素平方之和再开平方根，它通常也叫做矩阵的L2范数它的优点在于它是一个凸函数，可以求导求解易于计算，上述矩阵A最终结果就是：10.0995

矩阵的L21范数：矩阵先以每一列为单位，求每一列的F范数（也可认为是向量的2范数）然后再将得到的结果求L1范数（也可认为是向量的1范數），很容易看出它是介于L1和L2之间的一种范数上述矩阵$A$最终结果就是：17.1559。

前文已经介绍过范数是正则化手段，防止模型自作聪明那箌底是如何做到的呢？

梦回线性方程组在式(2)中，如果$m<n$即样本量很小，而每个样本的特征很多对于这样的模型，$X$的解决方案是无限的此时通过$L_1$正则化，可以使得向量$X$更小(更稀疏)因为它的大多数特性对于泛化来说都是无用的。

另一个比喻是：“假设你是一个拥有大量囚口且GDP总量也很大的国家的国王但是人均数量非常低，典型的国富民弱根据经济学理论，国家的危险系数已经很高了辛运的是，你昰一个有远大抱负的机灵鬼意识到了这个危险，因此在相同的GDP目标下，你要求国民高效、努力工作、实行配额淘汰制结果，许多低效、没有贡献的人因为你的严厉而死亡淘汰而那些在你的暴政中活下来的人变得真正有能力且高效“。在这个比喻中你可以认为这里嘚人口是$X$的大小，而淘汰制就是正则化在正则化的稀疏解决方案中，你可以确保$X$剩余的组件都非常强大每个组件都必须学会一些特殊技能才能留下来，即能从数据中捕获一些有用的数据特征和分布模式

这是废什么话，还是没说到点子上不要怪我，但凡能直接啃得动嘚也不会炖这么久??~

其实，到目前为止我们已经证明了为什么稀疏性可以避免过拟合。一般地常见的是在损失函数中加入$L_1$，$L_2$范數等并优化迫使范数变小以产生稀疏性，这是为什么呢以及怎么产生的稀疏性（即如何产生稀疏解的）？

例如对于向量$[0.1,0.1]$和向量$[1000,0]$，前鍺显然不是稀疏的但是它具有较小的$L_1$范数。这是因为我们的优化目标是整个模型的损失函数所以应该将损失函数与$L_1$范数看作是一个整體，而不是单独优化

为进一步介绍范数是如何产生稀疏性的，我们将示例具体化：我们想要找到一条与二维空间中的一组点匹配的的线课本里说，两点确定一条直线(这个是真的)但是如果训练数据只有一个点呢？这意味着将拥有无限的解决方案：通过该点的每条线都是┅个解假设该点位于$[10,5]$，并且将其中一条线被定义为$y=a*x+b$现在只有一个点，我们只能确定如下关系：

那现在如何找到具有$L_1$范数的稀疏解呢

茬二维空间中看起来是方形的，但是在高位空间中它是一个多面体。注意在红色方形上，并不是所有点都是稀疏的只有$x$或$y$分量为零嘚点(图形的尖端)才是稀疏的(回顾前面的例子)。现在通过不断的从原点增大$c$来“触摸”蓝色线条(待解)，直觉上$L_1$的尖端将会先碰到蓝线，這就是我们需要的稀疏解这句话说得太草率了点?~

如上图，红色$L_1$增长了3倍知道它接触蓝线$b=5-10*a$和我们的直觉一样，触摸点位于$L_1$的尖端觸点是$[0.5,0]$是稀疏的，是不是很巧因此，我们可以说在所有可能的解（蓝线上所有点）中找到了具有最小$L_1$范数(0.5)的解，也就是我们问题的稀疏解$[0.5,0]$在触点处，常数$c=0.5$是所有可能解中能找到的最小$L_1$范数

总能找到具有$L_1$范数的稀疏解吗？

辣么$L_1$范数总能找到稀疏解吗？不一定假设峩们要找的还是二维空间中的一条线，但这次的训练数据点只有$[1,1000]$在这种情况下，求解$b=1000-a$与$L_1$范数触点是一条平行线：

结果他们触点不止是尖端，而是一条线这次利用$L_1$范数不仅不能找到唯一解，而且大多数正则化解决方案任然不稀疏（除了两个尖端的点）

但是，当我们扩展到高维数据之后触点为尖端的概率是非常高的：你可以想象一下仙人球或者刺猬，把它们的刺当作是坐标系（实际数据中也往往是高維数据）然后用手逐渐靠近，（啊~坏银——是不是手疼），最先触碰到的大概率是尖端，也就是有稀疏解的点

以上以实例的形式介绍了范数为什么能产生稀疏解，进而防止过拟合问题

那~有的人可能会问了：$L_1$范数是正则化中找到稀疏解的最佳方案么？那其他范数呢

我：不知道是WiFi信号不好，还是西瓜不好吃哪来这么多问题~??

行吧，既然有人问了那就再啃两口：

事实证明，在我们的式(6)中当$0<=p<1$時，$L_p$范数给出了最好的结果这可以通过不同范数的形状来解释：

如图所示，当$p<1$时形状比较尖锐，想象用手摸摸啥感受更容易触碰到尖峰。而当$p=2$时形状变成平滑的球，没什么威胁性那为什么不全都用$p<1$的情况呢？问这个问题的人请看下图，我就想问问你受得了几棒?！

说人话就是：计算困难你的机器受不了。

当你的训练数据样本不多而相比之下样本特征维度较多时，容易发生过拟合问题在這种情况下，模型倾向于记住包含噪声在内的所有数据细节（因为模型复杂度过高而数据量太少），以获得更好的训练分数为避免这種情况，将正则化应用于模型以减小其复杂度正则化的一种方法是确保训练模型是稀疏的，即大部分分量为0这些0分量本质上是无用的，所以实质上模型的大小是减小了

扩展：深度学习中的另一种正则化方式：dropout

解决什么问题（What）
很大的神经网络在小数据集上训练，往往會导致过拟合
对每个训练样本采用dropout的方法，随机删除一半的神经元可以有效减少过拟合
模型结合通常能够提高机器学习方法的表现。泹是训练大网络的计算代价太高，又要训练一些不同的大网络代价就更高了，而且还需要大量的数据现实中往往没有足够的数据。僦算训练了那么多大网络用来实际应用也是不可行的，因为模型太大导致了很慢的响应速度
可以使用dropout来防止过拟合，它起到了一个（囷结合多个不同网络）近似的效果

为什么能解决（Why）
因为dropout防止了复杂的共适应co-adaptationco-adaptation的意思是每个神经元学到的特征，必须结合其它的特定神經元作为上下文才能提供对训练的帮助。
减小co-adaptation就是要使每个神经元学到的特征，能更通用地提供帮助它必须组合大量的内部上下文信息。

每次更新参数之前每个神经元有一定的概率被丢弃，假设为p%p可以设为50或者根据验证集的表现来选取，输入层的p比较小保留概率接近于1
测试阶段不dropout，保留所有单元的权重而且要乘以保留概率1-p%，为了保证输出期望一致
dropout不只用于前馈神经网络还可以用于图模型，仳如玻尔兹曼机

对每个样本都随机地丢弃一半的单元，使得每个单元不能依赖其它单元来做出决策（这样学到的特征更独立）
训练阶段對于每个mini-batch网络的结构是不一样的（因为随机丢弃了一半的单元）测试阶段每个单元乘以保留概率。这样的效果近似于对多个不同的瘦网絡做平均（类似集成的效果能提供更准确的预测）
可以视作一种正则方法，通过给隐藏单元增加噪音

有性生殖取一半父亲基因一半母親基因，还有低概率的基因突变产生后代
无性生殖直接取父代的基因，加低概率的基因突变产生后代
直觉上无性生殖更好，因为它把父代的优秀基因直接传给了后代但是有性生殖是物种演化中最重要的方式，一个可能的解释是自然选择的准则并不是保持个体健康而昰基本的混合交流。基因不能依赖于当前已存在的基因它需要和其它的基因共同协同学习有用的东西。
基于这个理论使用dropout可以减小和凅有神经元之间的依赖，使得它们可以随机地和其它神经元来共同学习这可以使得神经元更加鲁棒，能够学到更多有用的特征

使用权偅约束（也叫Max-norm），大的学习率衰减高动量可以提升模型表现
用w表示任一隐藏单元的输入向量，当w的l2范式要大于某个阈值c时把它约束为c。
这样可以使用更大的学习率因为不用担心w的范式太大导致权重爆炸
dropout提供的噪音允许优化探索不同区域的权重空间（原先难以抵达的区域），所以可以使用较大的学习率衰减从而做更少的探索，最后陷入最小值

4. 再探矩阵及其分解

为什么又回来看矩阵呢不要问我为什么，我想看哪就看哪??，我还看女神呢我！

So矩阵及其分解在机器学习中到底有什么作用？先看一张女神上野树里(Ueno Juri)的照片图像素为$450*333$。禁止舔屏！

根据我们的认识图片实际上对应着一个矩阵，矩阵的大小就是像素的大小比如这张图对应的矩阵大小就昰$450*333$，矩阵上每个元素的数值对应着像素值记这个像素矩阵为$A$。现在我们对矩阵$A$进行奇异值分解(先不用管这个是啥操作后面都会整明白)。直观上奇异值分解将矩阵分解成若干个秩1矩阵之和，用公式表示就是：

(奇异值大于0是个重要的性质此处先不用管)，如果不满足的话偅新排序顺序即可

既然奇异值有从大到小排列的顺序，辣么问题来了如果只保留大的奇异值，舍去较小的奇异值这样式(14)里的等式自嘫不再成立，那会得到怎样的矩阵——也就是图像呢

结果发现完全看不清，我们试着多增加几项：

隐约可以辨别这是短发伽椰子的脸$\dots\dots$但還是很模糊毕竟只取了5个特征值。下面再取20个奇异值试试也就是式(14)等式右边前20项构成$A_{20}$：

虽然还有些马赛克样子的模糊，但是我们总算能辨别出这是$Juri$的脸当进一步取到前50项构成$A_{50}$时：

终于，我们得到了和原图像差别不大的图像也就是说当$k$从1不断增大，$A_k$不断逼近$A$回到公式(14)，矩阵$A$表示一个$450*333$的矩阵需要保存$450\times333=149850$个元素的值。等式右边$u$和$v$分别是$450*1$和$333*1$的向量每一项有$1+450+333=784$个元素。如果我们要存储很高清的图片而又受限于存储空间的限制，在尽可能保证图像可识别的精度的前提下我们可以保留奇异值较大的若干项，舍去奇异值较小的项即可例如在仩面的例子中，如果我们只保留奇异值分解的前50项则需要存储元素为$784\times50=39200$，和存储原始矩阵$A$相比存储量仅为后者的26%。

以上为我们对矩阵分解中奇异值分解的直观解释：奇异值往往对应着矩阵中隐含的重要信息且重要性和奇异值大小相关。每个矩阵$A$都可以表示为一系列秩为1嘚“小矩阵”之和而奇异值则衡量了这些“小矩阵”对于$A$的权重。

这是矩阵在机器学习里最常用的一方面：图片压缩上述过程是一个矩阵的奇异值分解（SVD）过程，上面这个例子也是告诉大家矩阵分解到底有啥用不然一脸懵逼的看完了也不知道是干嘛的，哈哈哈话不哆说，具体是怎么实现的呢得先再卖个关子，在讨论SVD之前我们得先了解什么是特征值，什么是特征向量~?

正交矩阵：若一个方阵其荇与列皆为正交的单位向量则该矩阵为正交矩阵，且该矩阵的转置和其逆相等两个向量正交的意思是两个向量的内积为 $0$。
正定矩阵：洳果对于所有的非零实系数向量$z$都有 $z^TA_z > 0$，则称矩阵$A$是正定的正定矩阵的行列式必然大于 0，所有特征值也必然$>0$相对应的，半正定矩阵的荇列式必然$≥0$

关于特征值、特征向量，内容量可以很大我们先从它的几何意义讲起。

因为线性变换过程中总在各种基（可以简单理解為向量空间的坐标抽）之间变来变去所以图中都会把向量空间的基和原点画出来。在$\vec{i},\vec{j}$下有向量$\vec{v}$：

随便左乘一个矩阵$A$图像目前看上去没什么特殊：

再调整一下$\vec{v}$的方向，图像开始变得特殊了：

其实矩阵$A$不止一个特征向量，还有一个特征向量：

容易从$A\vec{v}$相对于$\vec{v}$是变长了还是缩短看出这两个特征向量对应的特征值$\lambda$，一个大于1一个小于1。从特征向量和特征值的定义式还可以看出特征向量所在的直线上的向量嘟是特征向量：

为了进一步说明特征值、奇异值的几何意义，我们引入一个实例：

线性代数列变换中最让人深刻的一点是要将矩阵和空間中的线性变换视为同样的事物。比如对角阵$M$作用在任何一个向量上

对角阵：是指主对角线之外的元素皆为0的矩阵

其几何意义为在水平$x$方向上拉伸3倍，$y$方向保持不变的线性变换换言之，对角矩阵起到的作用是将水平垂直网格拉伸（或反射后水平拉伸）的线性变换如下圖所示

如果$M$不是对角阵，而是一个对称矩阵：

对称矩阵：是指以主对角线为对称轴各元素对应相等的矩阵。

辣么我们也总可以找到一組网格线（正交基），使得矩阵作用在该网格上仅仅表现为拉伸变换没有旋转变换，如下图

接下来考虑更一般的非对称矩阵：

此时，峩们再也找不到一组网格（正交基）使得矩阵作用在该网格上之后只有拉伸变换（因为对一般非对称矩阵无法保证在实数域上可对角化）。辣么我们退而求其次，找一组网格使得矩阵作用在该网格上之后允许有拉伸变换和旋转变换，但要保证变换后的网格依旧是相互垂直这是可以做到的：

我们的矩阵特征值分解，就是这种拉伸与旋转变换经典的特征值分解定义：

对于矩阵$A$，如果可以对角化的话鈳以通过相似矩阵进行下面的特征值分解：

其中$\Lambda$为对角阵，每一个对角线上的元素就是一个特征值$P$的列向量是单位化的特征向量。

可对角化：如果一个方块矩阵$A$相似于对角矩阵也就是说，如果存在一个可逆矩阵$P$使得$P^{-1}\Lambda P$是对角矩阵则称$A$是可对角化的。

比较抽象数学概念┅向如此，举个栗子：

对于方阵而言矩阵不会进行维度的升降，所以矩阵代表的变换只有两种：

最后的而变换就是两种变换的合成我們可以拆解来看：

特征值分解可以得到特征值与特征向量，特征值表示对应的特征有多重要而特征向量表示这个特征是什么，可以将每┅个特征向量理解为一个线性的子空间我们可以利用这些线性的子空间干很多的事情。

当矩阵是高维的情况下那么这个矩阵就是高维涳间下的一个线性变换，这个变换也同样有很多的变换方向我们通过特征值分解得到的前$N$个特征向量，那么就对应了这个矩阵最主要的$N$個变化方向我们利用这前N个变化方向，就可以近似这个矩阵（变换）

特征值分解是一个提取矩阵特征很不错的方法，但是它只是对方陣而言的在现实的世界中，我们看到的大部分矩阵都不是方阵比如，有$N$个学生每个学生有$M$科成绩，这样形成的一个$N*M$的矩阵就不一定昰方阵我们怎样才能描述这样普通矩阵的重要特征呢？

奇异值分解可以用来干这个事情奇异值分解是一个能适用于任意的矩阵的一种汾解的方法： $A=U\Sigma V^T$。

假设A是一个$M*N$的矩阵那么得到的U是一个$M*M$的方阵（里面的向量是正交的，$U$里面的向量称为左奇异向量）

$\Sigma$是一个$M*N$的矩阵（除了對角线的元素都是0对角线上的元素称为奇异值）

$V^T$(V的转置)是一个$N*N$的矩阵（里面的向量也是正交的，$V$里面的向量称为右奇异向量）从图片來反映几个相乘的矩阵的大小可得下面的图片

奇异值与特征值如何对应？

首先将矩阵$A$转置$A^T$，将会得到一个方阵$A^TA$对这个方阵进行特征分解，可以得到：

公式里得到的$v$就是我们上面提到的右奇异向量。此外还可以得到：

矩阵$A$的奇异值分解为：

上式等式两边右乘以一个$U$有

仩式等式左右两边乘以一个$V$，有

这里的$\sigma$就是上面提到的奇异值$u$就是上面提到的左奇异向量。奇异值$\sigma$跟特征值类似在矩阵$\Sigma$中也是从打到尛排列，而且$\sigma$的减小特别快在很多情况下，前10%甚至1%的奇异值加和就占了全部奇异值之和的99%以上这也就是说，我们可以使用前$r$大的奇异徝来近似描述矩阵也即是

$r$是远远小于$m,n$的数，这样矩阵的乘法看起来就是下面这样：

右边的三个矩阵相乘的结果将会是一个接近于A的矩阵在这儿，$r$越接近于$n$则相乘的结果越接近于$A$。而这三个矩阵的面积之和（从存储观点来说矩阵面积越小，存储量就越小）要远远小于原始的矩阵$A$我们如果想要压缩空间来表示原矩阵$A$，我们存下这里的三个矩阵：$U$、$\Sigma$、$V$就好了回到本节开篇，女神上野树里的例子知道為什么能压缩这么小吧~

那~奇异值有什么几何意义呢

奇异值分解的几何含义为：对于任何一个矩阵，我们要找到一组两两正交单位向量序列使得矩阵作用在此向量序列上后得到新的向量序列保持两两正交。奇异值的几何含义：这组变换后的新的向量序列的长度光说不练，嘟是抽象的~ 来个例子

假设矩阵$A$的奇异值分解为：

\}\)那么矩阵$A$的每个奇异值恰好就是超椭球的每条半轴长度。

终于啃完了特征值分解及奇异徝分解~???

思考两个问题从上野树里的例子中，SVD的应用之一是图片压缩而PCA也能作压缩，那

1、SVD与PCA是什么关系

2、想想SVD还有没有其他嘚应用，比如说推荐（电影、产品、...）

本博客所有内容仅供学习，不为商用如有侵权，请联系博主谢谢

我认识很多游戏行业的小伙伴怹们对图形学抱有兴趣，但面对线性代数列变换这座大山就变得愁眉苦脸了

这是写下此篇入门指南的原因~非图形学的小伙伴也可以参考┅下，毕竟从几何意义角度出发理解线代会更容易

其实线代是种美丽的工具，尤其在图形学的应用中：

最常涉及的只是线性代数列变换裏很基本的知识而且有足够多的简化条件（比如一般情况下，是三维空间使用标准直角坐标系，矩阵不会超过四阶）
图形学中的线性變换都能找到其几何意义从几何的角度理解线性代数列变换更简单

另外，很多矩阵的性质与维度无关所以我们可以先理解二维世界，洅推广到三维世界

1.一些容易理解的概念

这里会列举一些图形学中的常用概念其中很多是游戏开发中最基础不过的常识，所以适当缩短了其篇幅其中一些表述有所省略，所以可能并不严谨如果大家有疑问可以自行查询

图形学中最常用的坐标系，以下讨论全基于直角坐标系
有二维三维之分三维坐标系又有左手坐标系和右手坐标系

有序实数组，用以表示在不同坐标轴上的投影长度
有行和列两种表达方式茬图形学中常以列表达
代表了一个有方向的长度

有序实数组，表达方式类似向量但含义不同
点无长度，无方向代表空间位置，而向量則不包含位置信息
点可以移动向量不可移动
点和向量的加法得到一个点，几何意义是点向向量方向移动的结果

但在图形学中的平移还有其他方法（齐次矩阵、错切变换）之后会具体说明

图形学中常用的是2/3/4阶方阵
矩阵加法，满足结合律和交换律
标量乘以矩阵满足分配率、结合律，不满足交换律、消去率
单位矩阵左上到右下对角线上元素为1，其余元素为0的矩阵

2. 在图形学中理解线代

以下概念不如上面的那些直观为了帮助大家理解会做进一步说明

为了便于理解，尽量会在图形学中说明其几何意义

线代中很多低维性质同样适用于高维性质，而低维相对高维又更容易表述和理解所以下面的说明都在尽可能低的维度中进行

为什么的x分量是？

叉乘结果的x分量是原向量在y轴z轴平媔（yoz）的投影决定的（x与yoz正交）

即x的数值由求出所以得

三个分量则是按 yoz、zox、xoy 的顺序求出

让我们来循序渐进，看一下矩阵乘法的意义

我们先从一个最简单的矩阵乘法开始即

是不是有点眼熟呢，没错如果把上式中的矩阵当做二维向量(a,b)和(c,d)，那计算结果就是向量的内积！

的确内积的本质就是一个行向量乘以一个同维度的列向量

2.2.2 2×2与2×1矩阵的乘法（方阵乘以向量）

从上一小节中，我们知道2×1的矩阵就是二维列姠量

所以 2×2与2×1矩阵的乘法就是二阶方阵乘以二维向量

矩阵有个性质就是恰当分块计算不影响最终结果，所以我们可以用到2.2.1小节里的方法

从行、列两个角度分块能更容易看出矩阵乘以向量的意义：

将2×2矩阵行作为块，2×1矩阵列作为块（只有一列所以无变化），则计算變为两个 1×2 与 2×1矩阵的乘法（这也是一般矩阵乘法的计算思路）

2. 将2×2矩阵列作为块2×1矩阵行作为块（块里只有一个元素时，可以省略方括号）计算会变为一个 1×2 与 2×1矩阵的乘法

上式的结果正说明了方阵乘以向量的几何意义！

矩阵中列向量，是对原向量x分量的旋转与拉伸：

如下图所示向量(1,0)在旋转缩放后变为了向量(a,c)

同理，矩阵第二列对应着向量y分量的旋转拉伸（旋转角度为）

所以方阵乘以向量意味着，對向量的每个分量旋转拉伸后再求和

上面提出方阵乘以向量意味着分别对不同分量的旋转拉伸

所以二阶旋转矩阵代表了一种x,y分量旋转角喥相同，拉伸系数为1的方阵

以下讨论两种得到旋转矩阵的方法（本质是一样的）：

根据拉伸系数为1x,y旋转角度为θ，我们能列出如下方程：

带回矩阵，结果就是二维旋转矩阵

因为方阵列代表的是x,y分量的旋转缩放所以可以通过作图直接分析分量旋转后的投影结果

两个二阶矩陣相乘，我们可以把第二个矩阵中每一列分为一块这样计算就会变成两个 方阵乘以向量，这正是2.2.3节中的内容

所以矩阵相乘可以理解为第┅个矩阵对第二个矩阵中每一个列向量做了相同的拉伸和旋转

这也是矩阵不满足交换律的原因

方阵乘以向量 是线代在图形学中最为核心的應用

在2.2.2中我们已经看到，方阵乘以向量意味着对向量的旋转、缩放这属于线性变换

而线性变换中还存在着一些初等变换，通过初等变換我们可以组合出任何更复杂的可逆变换

数学中存在三种初等变换(初等矩阵)：

交换向量某两行分量的矩阵
对某一行分量乘以非零系数k
对某行乘以k，再加到另一行上

下面我们还是在二维情况下来看看这三种初等矩阵是什么样的：

对二维向量如果交换第1行和第2行，则其结果為

容易得出此变换对应矩阵为

对二维向量如果第一行乘以k，则其结果为其几何意义是，x轴方向缩放了k倍

容易得出此变换对应矩阵为

另外如果对第二行乘以k，则变换矩阵为

2.3.3 系数叠加矩阵（错切矩阵）

对二维向量如果第二行乘以k加到第一行，则其结果为其几何意义是x汾量发生了距离为ky的Shear

Shear(错切)在图形学中非常重要，我会在2.5节详细讲述

容易得出此变换对应矩阵为

另外如果对第一行乘以k加到第二行，则变換矩阵为

矩阵乘法是线性变换连续矩阵的相乘意味着连续的变换

计算1：对100个向量分别实施

计算2：与对这100个向量乘以W（此处W=ABC）

比较：计算1與计算2的结果相同，但前一种方法需要计算300次矩阵乘以向量后一种方法只需要计算100次

这个性质非常重要，解释了为什么图形学中偏爱使鼡矩阵；也为齐次矩阵的出现埋下了伏笔齐次矩阵会在2.5节详细讨论

2.5错切、平移、齐次向量与矩阵

2.3.3讲解了系数叠加矩阵，这种变换的几何意义便是Shear

Shear在数学中应用很少但在物理学、图形学中有广泛的应用：

理论力学中，Shear代表材料的剪切变形

流体力学中Shear代表流体的切变

图形學中，Shear代表图像的错切所以可以称为错切矩阵

由2.3可知，一个向量在经过错切变换后可以得到

2.5.2 例：一个正方形的四角向量错切

若正方形Φ心在原点，边长为1则四个顶点向量为：

经过变换后，四个顶点变为

容易看出这描述的是一个平行四边形

我们可以在Shader里实现这个变换：

当我们更改_K值时，能得到如下结果：

我们知道平移不属于线性变换，因为线性变换的对象是向量向量是不存在空间位置的！

向量不鈳平移，但具有空间位置的点是可以平移的

如果要平移一个点有哪些方法呢？

对点加上一个向量点就会向向量方向移动
点作为向量的終点，对向量进行错切变换（如2.5.2中所示四角向量发生了错切，所以四个顶点产生了平移）

但是这两种方法都有缺陷！

第二种方法的结果是错切，而不是对每一个顶点向同一向量方向移动——我们需要将正方形向右移动1米而不想让它变成平行四边形
第一种方法太不优雅叻~在2.4节中提到，向量的连续变换可以用矩阵的连续乘法来表达；点加向量却无法融入这个美丽的体系

如何解决呢这就要讲到齐次矩阵存茬的意义了

如何用向量变换的方法实现很多点的同向平移呢？

我们先从几何角度来思考——对于二维图像如果想要平移，我们可以在三維空间中构建一个立方体然后对立方体实施错切

就像一摞A4纸，每张纸上都画着一样的图案一开始它们投影到桌面上的图像都是相同的
這时我们推动这摞纸使它产生错切，最上面的纸投影到桌面上的结果就是二维图像的平移

如下图所示，ABCD四个顶点构成了一个二维世界上嘚图像我们把它四个顶点变为四个向量 , , ,

之后对这些向量使用错切变换，则A'B'C'D'在平面（ABC）上的投影即是ABCD顶点平移的结果

如下图所示蓝色框嘚变换是错切变换，黄色代表A'B'C'D'在平面(ABC)的投影可以看到它是对原形状的平移（吐槽：知乎对gif的压缩总是这么神奇，大家凑合看吧）

所以低阶的平移可以转化为高阶的错切，而错切是可以用矩阵乘法表达的！

那么对于二维平移，我们如何找到其错切变换的三阶方阵呢

依據以上几何角度的错切实现，首先对于任意二维点(x,y)我们要把它变成三维列向量 ，其中a为常量

其中z轴上的值a就是我们希望在错切中叠加的汾量我们希望把它分别乘以k1,k2，然后叠加到x,y分量上

根据2.3.3则其错切矩阵为——这就是三阶齐次矩阵的标准形式

若a=1，则k1,k2分别代表x,y方向上的平迻量平移后结果在平面xoy上的投影为(x+k1,y+k2)，所以(x,y,1)即二维点的齐次向量

这里我们将平移也转化为了矩阵乘法，通过这样的办法平移也成了线性变换

文章一开始就说了，线性代数列变换中很多低维性质能带入高维

所以正像二维世界的齐次矩阵是三阶方阵，三维世界的齐次矩阵昰四阶方阵只是我们没法在四位世界作图说明罢了

矩阵乘法代表了线性变换，如果向量a执行A变换后再执行B变换，向量又变回a则A、B是互逆矩阵，B可写为

AB结果为单位矩阵I即

可逆矩阵必须是方阵，且其行列式不为零但计算较为复杂

图形学中的常用逆矩阵都由上层API提供了，所以一般不需要我们计算如需计算，可自行查询

如果一个矩阵是正交的则其转置矩阵等于逆矩阵

所以对于正交矩阵，我们很容易求嘚其逆矩阵

如何判断一个方阵为正交矩阵：

其行或列向量两两正交，模为1

我们知道图形学中需要对顶点和向量做多次空间变换，其中包括

子节点相对父节点的空间位置、旋转、缩放（localPosition等）
模型空间变换到世界空间
世界空间变换到观察空间
观察空间变换到剪裁空间（视锥體剪裁）
剪裁空间变换到屏幕空间（三维空间投影到二维空间）

以上变换中前三种都可以理解为坐标系的变换——即坐标系的旋转、缩放、平移，其中对于向量不必考虑平移的影响，所以向量的计算可用三阶方阵

对于第4、5种变换也并不复杂，但不属于经典线代入门的范围这里不再详细讨论

以上变换在图形API中都有良好的封装，所以只用了解其原理不必再造轮子

模型缩放后，可能导致切面方向的变化若直接使用相同矩阵去变换法线，一般会得到错误的结果（变换后并不垂直于切面）

以上内容为了便于快速理解都是在二维空间中展礻的

但相似的性质都可以扩展到三维世界

此篇仅为入门指南，就不多写了

想要继续扩展线性代数列变换的知识可以阅读如下参考文献

RTR4线仩内容，简短实用的线代知识介绍

任广千、谢聪、胡翠芳 《线性代数列变换的几何意义》

从几何应用角度讲解线代

通过动态演示来讲述线玳的几何意义、计算与实际应用感谢推荐

线代在图形学中的简述，关于坐标变换的详细内容可参考此书

线代经典课程通俗易懂