线性代数lu分解 化成u的过程的解答题求详细过程谢谢

数学是计算机技术的基础线性玳数lu分解 化成u的过程是机器学习和深度学习的基础,了解数据知识最好的方法我觉得是理解概念数学不只是上学时用来考试的,也是工莋中必不可少的基础知识实际上有很多有趣的数学门类在学校里学不到,有很多拓展类的数据能让我们发散思维但掌握最基本的数学知识是前提,本文就以线性代数lu分解 化成u的过程的各种词条来做一下预热不懂的记得百度一下。

还记得n*n方程组是怎么求解的吗这个术語叫“回代法”,即转成三角形方程组再挨个代入求解

一直不理解“代数”这个“代”是什么意思现在终于理解了,代英文是substitution,含义昰代替从初中到现在一直以为“代数”就是“代入”

系数矩阵,英文名叫coefficient matrix怪不得读开源代码里面经常遇到变量名叫做coe,原来是从这来嘚

“导数”、“可导”还记得吗不知道“导”是什么含义的有木有?英文derivative(含义是派生的、衍生的)看起来不是疏导的意思,而是音譯过来的

矩阵就是矩形的数字阵列这再简单不过了

n*n的矩阵叫方阵,傻子都知道了

系数矩阵加一列右端项的矩阵叫增广矩阵英文叫做augmented matrix,記作:(A|B)科学家们随便想个东西起个名字就让我们抱着书本啃,我把A后面放两个B叫做“增广矩阵二”行吗

行阶梯型矩阵,这回有点难度叻它就是这样的:非零一行比一行少,第一个元素是1数字靠右

高斯消元法:把增广矩阵化为行阶梯型矩阵

超定方程组:方程个数比未知量个数多

行最简形:行阶梯形,每行第一个非零元是该列唯一的非零元

高斯-若尔当消元法:将矩阵化为最简形的方法

齐次方程组(homogeneous):右端項全为零齐次方程组总是有解的

平凡解,就是零解(0,0,0,.....0)能不能别这么平凡的叫....

非平凡解:零解以外的解

x上面加水平箭头表示水平数组(行向量),不加则表示列向量不一样的书里记法不太一样,姑且这么记吧

对称矩阵的性质:转置等于他自己

矩阵没有乘法逆元那么叫做奇异的(singlular)

图的邻接矩阵(相连为1否则为0)是对称的

初等矩阵:乘到方程两端得到行阶梯形,初等矩阵是非奇异的即有逆

如果B=多个初等矩阵连乘A,那么说A与B是行等价的

如果A与I行等价那么Ax=0只有平凡解0,而且A有逆矩阵A-1也就是A是非奇异的,此时Ax=b有唯一解

求逆的方法:对增广矩阵A|I做行列变换把A变成I,则I变成了A-1

对角矩阵:对角线以外的元素都是0

如果A可以仅利用行运算化简为严格上三角形则A有一LU分解,L是单位丅三角矩阵矩阵值就是变换中用的系数,这叫LU分解

矩阵分块后满足矩阵乘法规则

内积也叫标量积:行向量和列向量乘积得出一个数

外積:列向量和行向量乘积,得出一个矩阵

外积展开:两个矩阵分别用向量方式表示其乘积可以表示为外积展开

行列式:两条竖线间包括嘚阵列

每个方形矩阵可以和他的行列式对应,行列式数值说明方阵是否是奇异的

行列式算法:展开某一行每个数乘以他的余子式并加和

洳果行列式非0,则方形矩阵为非奇异

det(A)可表示为A的任何行或列的余子式展开

三角形矩阵的行列式等于对角元素乘积

交换矩阵两行行列式变荿原来的负数,即det(EA)=-det(A)

矩阵某行乘以a行列式变成原来的a倍,即det(EA)=adet(A)

矩阵某行乘以a加到另一行行列式不变

如果某行为另一行的倍数,则矩阵行列式为零

adj A:矩阵的伴随(adjoint)将元素用余子式替换并转置

克拉黙法则:Ax=b的唯一解是xi=det(Ai)/det(A),这是线性方程组用行列式求解的便利方法

信息加密方法:找箌行列式为正负1的整数矩阵AA-1=+-adj A易求,乘A加密乘A-1解密,A的构造方法:单位矩阵做初等变换

微积分中x看做行向量线性代数lu分解 化成u的过程Φx看做列向量

向量积可用于定义副法线方向

向量空间:这个集合中满足加法和标量乘法运算,标量通常指实数

子空间:向量空间S的子集本身也是个向量空间这个子集叫做子空间

除了{0}和向量空间本身外,其他子空间叫做真子空间类似于真子集的概念,{0}叫做零子空间

Ax=0的解空間N(A)称为A的零空间也就是说Ax=0线性方程组的解空间构成一个向量空间

向量空间V中多个向量的线性组合构成的集合成为这些向量的张成(span),记作span(v1,v2,...,vn)

span(e1,e2)為R3的一个子空间从几何上表示为所有x1x2平面内3维空间的向量

最小张集是说里面没有多余的向量

最小张集的判断方法是:这些向量线性组合=0呮有0解,这种情况也就是这些向量是线性无关的如果有非零解那么就说是线性相关的

在几何上看二位向量线性相关等价于平行,三维向量线性相关等价于在同一个平面内

向量构成矩阵的行列式det(A)=0则线性相关,否则线性无关

线性无关向量唯一地线性组合来表示任意向量

最小張集构成向量空间的基{e1,e2...en}叫做标准基,基向量数目就是向量空间的维数

转移矩阵:把坐标从一组基到另一组基的变换矩阵

由A的行向量张成嘚R1*n子空间成为A的行空间由A的列向量张成的Rm子空间成为A的列空间

A的行空间的维数成为A的秩(rank),求A的秩方法:把A化为行阶梯形非零行个数就昰秩

矩阵的零空间的维数成为矩阵的零度,一般秩和零度之和等于矩阵的列数

m*n矩阵行空间维数等于列空间的维数

线性算子:一个向量空间箌其自身的线性变换

典型线性算子距离:ax(伸长或压缩a倍)x1e1(到x1轴的投影),(x1,-x2)T(关于x1轴作对称)(-x2,x1)T逆时针旋转90度

判断是不是线性变换,就看看这种变换能不能转化成一个m*n矩阵

线性变换L的核记为ker(L)表示线性变换后的向量空间中的0向量

子空间S的象记为L(S),表示子空间S上向量做L变换的徝

整个向量空间的象L(V)成为L的值域

ker(L)为V的一个子空间L(S)为W的一个子空间,其中L是V到W的线性变换S是V的子空间

从以E为有序基的向量空间V到以F为有序基的向量空间W的线性变换的矩阵A叫做表示矩阵

如果A和B为同一线性算子L的表示矩阵,则A和B是相似的

两个向量的标量积为零则称他们正交(orthogonal)

標量投影:向量投影的长度,α=xTy/||y||

c2=a2+b2叫毕达哥拉斯定理其实就是勾股弦定理

余弦应用于判断相似程度

U为向量组成的矩阵,C=UTU对应每一行向量的標量积值这个矩阵表示相关程度,即相关矩阵(correlation matrix)值为正就是正相关,值为负就是负相关值为0就是不相关

协方差矩阵S=1/(n-1) XTX,矩阵的对角线元素为三个成绩集合的方差非对角线元素为协方差

正交子空间:向量空间的两个子空间各取出一个向量都正交,则子空间正交比如z轴子涳间和xy平面子空间是正交的

子空间Y的正交补:是这样一个集合,集合中每个向量都和Y正交

正交补一定也是一个子空间

A的列空间R(A)就是A的值域即Rn中的x向量,列空间中的b=Ax

R(AT)的正交空间是零空间N(A)也就是说A的列空间和A的零空间正交

S为Rn的一个子空间,则S的维数+S正交空间的维数=n

S为Rn的一个孓空间则S的正交空间的正交空间是他本身

最小二乘解为p=Ax最接近b的向量,向量p为b在R(A)上的投影

最小二乘解x的残差r(x)一定属于R(A)的正交空间

插值多項式:不超过n次的多项式通过平面上n+1个点

一个定义了内积的向量空间成为内积空间

标量内积是Rn中的标准内积加权求和也是一种内积

一般哋,范数给出了一种方法来度量两个向量的距离

正交集中的向量都是线性无关的

规范正交的向量集合是单位向量的正交集规范正交集中=1,里面的向量叫做规范正交基

正交矩阵:列向量构成规范正交基

矩阵Q是正交矩阵重要条件是QTQ=I即Q-1=QT

乘以一个正交矩阵,内积保持不变即=

乘鉯一个正交矩阵,仍保持向量长度即||Qx||=||x||

置换矩阵:将单位矩阵的各列重新排列

如果A的列向量构成规范正交集,则最小二乘问题解为x=ATb

非零子涳间S中向量b到S的投影p=UUTb其中U为S的一组规范正交基,其中UUT为到S上的投影矩阵

使用不超过n次的多项式对连续函数进行逼近可以用最小二乘逼菦。

某取值范围内线性函数的子空间内积形式是取值范围内对两个函数乘积做积分

通过将FN乘以向量z来计算离散傅里叶系数d的方法称为DFT算法(离散傅里叶变换)

FFT(快速傅里叶变换),利用矩阵分块比离散傅里叶变换快8w多倍

格拉姆-施密特QR分解:m*n矩阵A如果秩为n,则A可以分解为QRQ为列向量正交的矩阵,R为上三角矩阵而且对角元素都为正,具体算法:

r11=||a1||其中r11是对角矩阵第一列第一个元素,a1是A的列向量

Ax=b的最小二乘解为x=R-1QTb,其中QR为因式分解矩阵解x可用回代法求解Rx=QTb得到

使用多项式进行数据拟合以及逼近连续函数可通过选取逼近函数的一组正交基进行简化

多项式序列p0(x),p1(x),...下标就是最高次数,如果=0则{pn(x)}成为正交多项式序列,如果=1则叫规范正交多项式序列

经典正交多项式:勒让德多项式、切比雪夫多項式、雅克比多项式、艾尔米特多项式、拉盖尔多项式

经过矩阵变换后向量保持不变,稳定后的向量叫做该过程的稳态向量

存在非零的x使嘚Ax=λx则称λ为特征值,x为属于λ的特征向量。特征值就是一个缩放因子,表示线性变换这个算子的自然频率

子空间N(A-λI)称为对应特征值λ的特征空间

det(A-λI)=0称为矩阵A的特征方程求解特征方程可以算出λ

λ1λ2...λn=det(A),即所有特征值的连乘积等于矩阵A的行列式的值

sigma λi= sigma aii所有特征值的和等於矩阵对角线元素之和

A的对角线元素的和称为A的迹(trace),记为tr(A)

相似矩阵具有相同的特征多项式和相同的特征值

线性微分方程解法可以用特征徝特征向量,形如Y'=AY, Y(0)=Y0的解是ae(λt)x其中x是向量,这样的问题称为初值问题如果有多个特征值,则解可以是多个ae(λt)x的线性组合

任意高阶微分方程都可以转化成一阶微分方程一阶微分方程可以用特征值特征向量求解

矩阵A的不同特征值的特征向量线性无关

如果存在X使得X-1AX=D,D是对角矩陣则说A是可对角化的,称X将A对角化X叫做对角化矩阵

如果A有n个线性无关的特征向量,则A可对角化

对角化矩阵X的列向量就是A的特征向量D嘚对角元素就是A的特征值,X和D都不是唯一的乘以个标量,或重新排列都是一个新的

如果A有少于n个线性无关的特征向量,则称A为退化的(defective)退化矩阵不可对角化

特征值和特征向量的几何理解:矩阵A有特征值2,特征空间由e3张成,看成几何重数(geometric multiplicity)是1

随机过程:一个试验序列每一步輸出都取决于概率

马尔可夫过程:可能的输出集合或状态是有限的;下一步输出仅依赖前一步输出,概率相对于时间是常数

如果1为转移矩陣A的住特征值则马尔可夫链将收敛到稳态向量

一个转移矩阵为A的马尔可夫过程,若A的某幂次的元素全为正的则称其为正则的(regular)

PageRank算法可以看成浏览网页是马尔可夫过程,求稳态向量就得到每个网页的pagerank值

A的奇异值(singlular value)分解:把A分解为一个乘积UΣVT其中U、V都是正交矩阵,Σ矩阵的对角线下所有元素为0对角线元素逐个减小,对角线上的值叫奇异值

A的秩等于非零奇异值的个数

A的奇异值等于特征向量的开方

若A=UΣVT那么上媔ATuj=σjvj,下面ATuj=0其中vj叫做A的右奇异向量,uj叫做左奇异向量

奇异值分解解题过程:先算ATA的特征值从而算出奇异值,同时算出特征向量由特征向量得出正交矩阵V,求N(AT)的一组基并化成规范正交基组成U,最终得出A=UΣVT

数值秩是在有限位精度计算中的秩不是准确的秩,一般假设一個很小的epsilon值如果奇异值小于它则认为是0,这样来计算数值秩

用来存储图像的矩阵做奇异值分解后去掉较小的奇异值得到更小秩的矩阵實现压缩存储

信息检索中去掉小奇异值得到的近似矩阵可以大大提高检索效率,减小误差

二次型:每一个二次方程关联的向量函数f(x)=xTAx即二佽方程中ax2+2bxy+cy2部分

ax2+2bxy+cy2+dx+ey+f=0图形是一个圆锥曲线,如果没解则称为虚圆锥曲线如果仅有一个点、直线、两条直线,则称为退化的圆锥曲线非退化的圓锥曲线为圆、椭圆、抛物线、双曲线

一个关于x、y的二次方程可以写为xTAx+Bx+f=0,其中A为2*2对称B为1*2矩阵,如果A是非奇异的利用旋转和平移坐标轴,则可化简为λ1(x')2+λ2(y')2+f'=0其中λ1和λ2为A的特征值。如果A是奇异的且只有一个特征值为零,则化简为λ1(x')2+e'y'+f'=0或λ2(x')2+d'x'+f'=0

如果二次型正定则称A为正定的

一阶偏导存在且为0的点称为驻点驻点是极小值点还是极大值点还是鞍点取决于A是正定负定还是不定

一个对称矩阵是正定的,当且仅当其所有特征值均为正的

r阶前主子矩阵:将n-r行和列删去得到的矩阵

如果A是一个对称正定矩阵则A可分解为LDLT,其中L为下三角的对角线上元素为1,D为對角矩阵其对角元素均为正的

如果A是一个对称正定矩阵,则A可分解为LLT其中L为下三角的,其对角线元素均为正

对称矩阵如下结论等价:A昰正定的;前主子矩阵均为正定的;A可仅使用行运算化为上三角的且主元全为正;A有一个楚列斯基分解LLT(其中L为下三角矩阵,其对角元素为正的);A可以分解为一个乘积BTB其中B为某非奇异矩阵

非负矩阵:所有元素均大于等于0

一个非负矩阵A,若可将下标集{1,2,...,n}划分为非空不交集匼I1和I2使得当i属于I1而j属于I2中时,aij=0则成其为可约的,否则为不可约的

相对误差:(x'-x)/x通常用符号δ表示,|δ|可以用一个正常数ε限制,称为机器精度(machine epsilon)

高斯消元法涉及最少的算术运算,因此被认为是最高效的计算方法

求解Ax=b步骤:将A乘以n个初等矩阵得到上三角矩阵U把初等矩阵求逆相乘得到L,那么A=LU其中L为下三角矩阵,一旦A化简为三角形式LU分解就确定了,那么解方程如下:LUx=b令y=Ux,则Ly=b所以可以通过求下三角方程求得y,y求得后再求解Ux=y即可求得x

矩阵的弗罗贝尼乌斯范数记作||·||F,求其所有元素平方和的平方根

若A的奇异值分解A=UΣVT则||A||2=σ1(最大的奇异值)

矩阵范数可用于估计线性方程组对系数矩阵的微小变化的敏感性

奇异值为一个矩阵接近奇异程度的度量,矩阵越接近奇异就越病态

主特征值是指最大的特征值

求主特征值的方法:幂法

求特征值方法:QR算法。将A分解为乘积Q1R1其中Q1为正交的,R1为上三角的A2=Q1TAQ1=R1Q1,将A2分解为Q2R2定义A3=Q2TA2Q2=R2Q2,继续这样得到相似矩阵序列Ak=QkRk,最终将收敛到类似上三角矩阵对角上是1*1或2*2的对角块,对角块的特征值就是A的特征值

奇异值分解正是对這种线性变换的一个析构A=,和是两组正交单位向量是对角阵,表示奇异值它表示A矩阵的作用是将一个向量从这组正交基向量的空间旋转到这组正交基向量空间,并对每个方向进行了一定的缩放缩放因子就是各个奇异值。如果维度比大则表示还进行了投影。可以说渏异值分解描述了一个矩阵完整的功能/特性

特征值分解其实只描述了矩阵的部分功能。特征值特征向量由Ax=x得到,它表示如果一个向量v处于A的特征向量方向那么Av对v的线性变换作用只是一个缩放。也就是说求特征向量和特征值的过程,我们找到了这样一些方向在这些方向上矩阵A对向量的旋转、缩放变换(由于特征值只针对方阵,所以没有投影变换)在一定程度上抵消了变成了存粹的缩放(这个缩放比例和奇异值分解中的缩放比例可能不一样)。

概括一下特征值分解只告诉我们在特征向量的那个方向上,矩阵的线性变化作用相当於是简单的缩放其他方向上则不清楚,所以我说它只表示矩阵的部分特性而奇异值分解则将原先隐含在矩阵中的旋转、缩放、投影三種功能清楚地解析出来,表示出来了它是对矩阵的一个完整特征剖析。



我们从另一种角度来看待 Gauss 消元

艏先考虑没有行交换的情形(也就是主元位置的元素不为 0)。

对矩阵 A 进行 Gauss 消元相当于用一系列初等矩阵左乘 A 从而得到上三角矩阵 U.

3×3 矩阵為例

是初等矩阵(Eij(i,j) 位置的元素消为 0),U 是消元后所得到的上三角矩阵即




下面我们通过例子来说明为什么希望得到 A=LU 的形式而不是 EA=U.



呢,這是因为我们首先将

倍加到第二行又将第二行的

倍加到了第三行,这就相当于将第一行的

倍加到了第三行因此这就导致了

出现,因为咜不利于我们快速确定变换所用的矩阵

而当我们写成 A=LU 的形式时,显然 L 是对角元全为 1 的下三角矩阵且 L 下三角部分各位置的元素可通过消え过程快速确定,L(2,1),(3,2) 位置的元素即为消元的所用乘数 ?2,?5 的相反数(差了一个负号是求逆的缘故)

因此,我们只需记录消元所用的乘数就能快速地确定矩阵 L(注意我们这里所讨论的是没有行交换的情形),不需要进行任何计算这就是我们使用形式 A=LU 的好处。


课程来源:(课程链接)

作者简述:作者为一名正在读研的学生自己的数学状态较差。本科期间所学均能算跟得上而且通过自己的努力经过了研究生考试。但是对数學的理解并不透彻只是根据课上所学去做题而已。如今科研中许多过程均需要用到所学的数学知识,然而一个好的理解和一个扎实的基础才是科研之本数学虽然是作为一种工具,如果不了解含义无论是是使用上还是在其基础之上进行修改均显得支支吾吾。于是决定偅新学习线性代数lu分解 化成u的过程相关知识并做此笔记以供复习或和他人分享。

用途:此系列文章均是作者在课上所学及其自己相关的數学思想所做的笔记如有理解错误之处还望大家指出。本系列文章均可不咨询情况下任意转载和学习(不可商用)

作者研究方向为机器学习,如果有相同方向的小伙伴想一起学习请加QQ(备注来源博客),如果人数较多还可能建群同时发现文章中有错误之处也请发邮件到。


      在上节课中我们介绍了矩阵乘法的五种方法。同时引出了矩阵的逆并利用前几节课的知识对逆进行理解及求解。在这节课中峩们首先介绍求解逆矩阵的几个基本的公式,然后在消元的基础上来叙述A的LU分解

      在这首先介绍两个逆的基本公式,并且给出其推导方法这样我们就可以从定义的角度进行理解,而非死记硬背

I。则由此可以得出所表示的矩阵为B~A~。

      对于矩阵A我们可以通过一种变换将其变荿矩阵U例如对第一行进行加倍并加到第二行中的变换E21。如下矩阵所示:

在上面这个图中E21所带表的矩阵是什么呢我们可以利用上节矩阵楿乘的知识求解出E21为如下所示:

很显然我们所表示的是E21A = U,那么下面我们将对他进行变换使其成为A = LU的形式在等式两边左侧同时乘以E21~则可以佷容易得出A = E21~U,则L = E21~A = LU的表示形式如下:

可以看出L(Lower)为下三角阵,U(Uper)为上三角阵A的LU分解就相当于把A分解为两个三角阵的乘积形式。从消え的角度出发L为对矩阵A消元成矩阵U所做的变换的逆下面我们将从3×3矩阵中去深刻理解这句话,并去探讨为什么存在A = LU的这种形式

      在我们進行消元的过程中,我们通常去寻找一个矩阵中的主元(前几节讲过)然后利用主元对其他行进行消元。在消元十分顺利的情况下(可鉯进行消元且不存在因为寻找主元而更换矩阵两行的情况)我们可以将一个3×3的矩阵A消元的过程表示如下:

      其所表达的意思为通过第一荇的倍数对第二、三行进行消元,同时利用消元过的第二行的倍数再对第三行进行消元使其成为一个上三角阵。很显然L矩阵可以表示为:

那么一个很显然的问题来了既然我们可以将消元表示为第①种形式,那么我们为什么还要导出其第②种形式呢下面通过一个例子进荇讲解。

这里我们首先假设E31为单位矩阵即在用第一行对第三行进行消元过程中无需做任何变换。看如下例子:

如果将其表示为L则由②鈳得如下式子:

如果第一个式子用E表示,那么我们可以看出E和L的区别E中存在一个10,而相反L中此处却为0之所以我们不用E去表示而选择用L昰因为E的消元乘数太大。E中通过第一行的倍数对第二行进了消元而又通过消元过的第二行的倍数对第三行进行了消元。很明显这个过程Φ出现了叠加导致乘数变大。如果消元中不存在交换两行的这种变换那么消元的乘数(E21~等)即可用来直接求解L。

我要回帖

更多关于 线性代数lu分解 化成u的过程 的文章

 

随机推荐