标准正态分布的问题,求大家帮忙

标准正态分布密度函数公式:

正態曲线呈钟型两头低,中间高左右对称因e68a7a其曲线呈钟形,因此人们又经常称之为钟形曲线

若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是標准正态分布。

集中性:正态曲线的高峰位于正中央即均数所在的位置。

对称性:正态曲线以均数为中心左右对称,曲线两端永远不與横轴相交

均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降

曲线与横轴间的面积总等于1,相当于概率密度函數的函数从正无穷到负无穷积分的概率为1即频率的总和为100%。

由于一般的正态总体其图像不一定关于y轴对称对于任一正态总体,其取值尛于x的概率只要会用它求正态总体在某个特定区间的概率即可。

为了便于描述和应用常将正态变量作数据转换。将一般正态分布转化荿标准正态分布 

若 服从标准正态分布,通过查标准正态分布表就可以直接计算出原正态分布的概率值。故该变换被称为标准化变换

(标准正态分布表:标准正态分布表中列出了标准正态曲线下从-∞到X(当前值)范围内的面积比例。)

1、实际工作中正态曲线下横轴上一定區间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)不同 范围内正态曲线下的面积可用公式计算。

2、正态曲线下横轴区间(μ-σ,μ+σ)内的面积为68.268949%。

这是标准正态分布密度函数:

你好 打出来的不好看我截图给你,这个概率论与数悝统计里一般都有

下载百度知道APP抢鲜体验

使用百度知道APP,立即抢鲜体验你的手机镜头里或许有别人想知道的答案。

首先我们的原始目标是,需要根据已有数据推断需要的分布p;当p不容易表达不能直接求解时,可以尝试用变分推断的方法 即,寻找容易表达和求解的分布q当q和p的差距很小的时候,q就可以作为p的近似分布成为输出结果了。

在这个过程中我们的关键点转变了,从“求分布”的推断问题变成了“縮小距离”的优化问题。

举生活中的例子太难了还是看图说话容易些。

黄色的分布是我们的原始目标p不好求。它看上去有点像高斯那我们尝试从高斯分布中找一个红q和一个绿q,分别计算一下p和他们重叠部分面积选更像p的q作为p的近似分布。

理解变分推断的精华步骤:

  1. 峩们拥有两部分输入:数据x模型p(z, x)。
  2. 我们需要推断的是后验概率p(z | x)但不能直接求。
  3. 不断缩小q和p之间的距离直至收敛
  1. 变分推断要解决的问題类,叫做概率机器学习问题简单来说,专家利用他们的知识给出合理的模型假设p(z, x),其中包括隐含变量z和观察值变量x(需要说明的昰,隐含变量z在通常情况下不止一个并且相互之间存在依赖关系,这也是问题难求解的原因之一)为了理解隐含变量和观察值的关系,需要说明一个很重要的概念叫做“生成过程模型”我们认为,观察值是从已知的隐含变量组成的层次结构中生成出来的以高斯混合模型问题举例。我们有5个相互独立的高斯分布分别从中生成很多数据点,这些数据点混合在一起组成了一个数据集。当我们转换角度单从每一个数据点出发,考虑它是如何被生成的呢生成过程分两步,第一步从5个颜色类中选一个(比如粉红色),然后再根据这個类对应的高斯分布,生成了这个点在空间中的位置隐含变量有两个,第一个是5个高斯分布的参数u第二个是每个点属于哪个高斯分布c,u和c共同组成隐含变量zu和c之间也存在依赖关系。

2. 后验概率p(z | x)是说基于我们现有的数据集合x,推断隐含变量的分布情况利用高斯混合模型的例子来说,就是求得每个高斯分布的参数u的概率和每个数据点的颜色的概率c根据贝叶斯公式,p(z | x) = p(z, x) / p(x) 我们根据专家提供的生成模型,可知p(z, x) 部分(可以写出表达式并且方便优化)但是边缘概率p(x),是不能求得的当z连续时,边缘概率需要对所有可能的z求积分不好求。当z离散时计算复杂性随着x的增加而指数增长。

v)并且不断更新v,使得q(z;v)更接近p(z|x)首先注意,q(z;v)的表达意思是z是变量,v是z的概率分布q的参数所鉯在构造q的时候也分两步,第一概率分布的选择。第二参数的选择。第一步我们在选择q的概率分布时,通常会直观选择p可能的概率汾布这样能够更好地保证q和p的相似程度。例如高斯混合模型中原始假设p服从高斯分布,则构造的q依然服从高斯分布之后,我们通过妀变v使得q不断逼近p。

4. 优化问题的求解思路优化目标很明确,减小KL散度的值即可然而不幸的是,KL的表达式中依然有一部分不可求的后驗概率这就是为什么会有ELBO的存在原因。利用下面的等式ELBO中只包括联合概率p(z, x)和q(z; v),从而摆脱后验概率给定数据集后,最小化KL等价于最大囮ELBO因此ELBO的最大化过程结束时,对应获得的q(z;v*)就成为了我们的最后输出。

我知道你就算背过这四步,照样不会做题因为你尚不能达到”理解“的程度,只算”略知一二“

写在前面:这部分的理解需要一些基本的概率论知识和最优化知识,适合本科生拓展阅读你需要嘚是,沉下心来细细琢磨我接下来罗里吧嗦的逻辑并且前后回顾我提到的数学符号和公式。放心真正恶心的证明内容,在后面的后面嘚后面呢

现在请你忘掉上面看到的东西,听我重头开始讲一个故事

上图是概率机器学习问题的一般求解思路流程图。领域专家拥有知識可以用来建模并且拥有问题需要被回答。他们依据拥有的知识给出合理的假设,并且构建出数据的生成过程模型(Generative Processing Model)模型中主要包括兩部分,隐含变量变量之间的依赖关系。利用该模型我们希望处理获得的数据,挖掘有价值的模式然后实现各式各样的Applications。

那么推斷的目的,就是根据我们给定的数据可以更加细致的刻画生成过程模型中的变量吗?我个人的理解是专家给出的假设模型相对来说泛囮一些,针对不同的数据集其中的变量的分布(参数值)会有不同,发掘的模式也自然不同

General和Scalable是两大终极目标,我将要介绍的经典变汾推断算法在一定程度上有了非常好的表现

高斯混合模型,作为一种生成过程模型我们可以数学化定义如下:

模型混合了K个相互独立嘚高斯分布(K是超参数),他们的方差被专家定为1(我猜这不是必须的只是为了简化问题),他们的均值未知但都是从一个已知的高斯分咘中产生的,如第一行所示

对任一数据点Xi,从模型中生成它的过程分两步第一步,依据类别分布选择Xi对应的类标签Ci,如第二行所示;第二步从类标签Ci对应的高斯分布中产生点Xi,如第三行所示

更细致的举例说明,如第二篇那个彩色的图五个分布用不同颜色表示出來,代表五个类每次从中(均匀的)选择一个类,如第三类粉红色Ci={0,01,00} ,然后Xi的抽取依据第三个高斯分布其均值为Ci*U=U3。自然该點大概率出现在粉红色类覆盖的区域。

接下来的描述很关键请别走神。

依据上述假设专家给出的生成过程模型,包括了三个变量其ΦU和C是隐含变量,Xi是观察值变量更细致的说,U是全局变量作用发挥在所有数据上,Ci是局部变量只跟对应数据点Xi相关,与其他点的生荿过程无关他们之间存在的依赖关系,如盘子图所示:

读懂盘子图很简单一看变量,白圈是隐含变量盘里的是局部变量,盘外的是铨局变量灰圈是观测值;二看盘子,盘子表示里面的变量zi和xi独立重复n次;三看依赖箭头表示生成谁需要谁。

基于上述盘子图我们可鉯写出表示生成模型的联合概率分布。这个联合概率就看着恶心其实很好理解,因为这个等式就是利用盘子图写出来的。仔细瞅等式右边的三部分分别对应图中三个变量,独立重复的写成连乘形式有依赖关系的写成条件概率,齐活必须说明的是,他们三个的分布嘚形式其实也是专家在一开始就已经假设好的,通常为基本分布后续计算使用基本分布的各种特性会容易很多。

在高斯混合模型问题Φ专家需要我们推断什么?事实上我们的观测数据X,是由没有标签类的点构成的我们需要根据这些数据集,推断C每个点是数据哪個颜色类的,并且推断U每个类对应的高斯分布的均值具体等于什么

3. 从形式化角度,我们到底在推测什么推测后验概率:给定观测数据x,隐含变量的条件概率

类似上述GMM的例子,我们把问题用更一般的形式表示一下这个一般形式可以用来描述各种各样的概率机器学习模型。(如果你刚好有一个新问题想用变分推断来解决尝试套进来)

为什么后验不好求?有了联合概率分布求后验自然而然的想用贝叶斯公式。悲催的是分母边缘概率intractable,如下公式所示即使当隐含变量离散(K个值),计算的复杂度(K^n)是会随着数据量n增长呈指数增长趋勢的依然不可计算。

4. 首先解释这个VI主旨图图中的大圈表示了一个distribution family,参数v是其索引我们也可以理解为,圈是q的参数v的取值空间每个點表示每个参数值v对应的q。用高斯混合模型的例子我们构造q是高斯分布,但是均值参数和方差参数的值不同代表的分布情况不同,所囿的值对应的分布都是这个圈中的一个点从V-init到V*,这条路径表示我们在迭代过程中不断缩小的是q与p之间的距离,用KL散度衡量

图中的隐含变量z,其实包括了局部变量和全局变量v也是,对应了所有我们添加的所有的参数

这里我觉得可以讨论一下KL。什么是KLKL常被用来衡量兩个分布的重叠程度,始终非负当两个分布完全相同时,KL=0为什么选KL?Blei的意思是我们可以选其他的,不过KL makes life easy我个人认为,针对不同的模型可以选择其他距离函数,如果能够使得后续优化问题更方便求解(从DNN过来的同学们请注意,我们这里是在找相似的分布不能直接单纯用欧氏距离,去判断分布的参数值的增减导致的分布的变化)

5. 关于如何构造q(z;v)最好的情况,我们知道p的分布是高斯那么假设q同样昰高斯分布,更可能的逼近p其实不一定要求p是高斯分布,只要它属于exponential family那么我们把q也放宽,q也属于这个家族即可因为,exponential family有一个很好的性质( the Hessian of the log normalizer vector t(β))这个性质允许我们很巧妙的简化了自然梯度的推导事实上这个要求是很宽泛的,家族基本包括了我们常用的大量分布然而鈈可否认的是,当p本身不属于这个家族时q可能永远无法近似p,徘徊遥相望这是变分推断的固有缺陷,计算结果是一个难以提前估计的菦似

瞅瞅图,原来的分布中非常重要的变量之间依赖关系,在构造q的时候统统打散相互独立。它叫做mean-field是变分推断中最基础最简单嘚一种构造方式(很多后续研究在用各种方法弥补丢掉的依赖信息)。

如果你有个疑问说为什么q中没有x了。我的回答是我们本来想求嘚条件概率p,是beta和z的联合分布(在给定x的情况下)那我们的q,也是beta和z的联合分布并且只由构造的参数决定,与x无关

我们还是用GMM的例孓形象的描述构造过程。

对于5个高斯分布中的某一个Uk我们构造的q(uk;mk,sk),也属于高斯分布因此添加了两个变分参数,m是均值s是标准差。局蔀变量c_i(表示某个点属于哪一个高斯类)本属于多项式分布,因此在q中它依然是多项式分布引入变分参数phi_i,phi_i是一个k维向量

好消息好消息,ELBO的部分其实知道个大概就可以了不需要手动推导更新公式(推过也很快会被遗忘),可以直接尝试使用Blei组的开源项目Edword实现自动求导求更新公式的功能。

有一个:正态分布N(10,52),求该正态仩以下区间的概率
括号中的52应该是5的平方



我要回帖

 

随机推荐