贝叶斯估计和最大似然估计法和贝叶斯的区别


VIP专享文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP專享文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

你对这个回答的评价是

下载百喥知道APP,抢鲜体验

使用百度知道APP立即抢鲜体验。你的手机镜头里或许有别人想知道的答案

在机器学习中我们經常使用一个模型来描述生成观察数据的过程。例如我们可以使用一个随机森林模型来分类客户是否会取消订阅服务(称为流失建模),或者我们可以用线性模型根据公司的广告支出来预测公司的收入(这是一个线性回归的例子)每个模型都包含自己的一组参数,这些參数最终定义了模型本身

我们可以把线性模型写成 y = mx + c 的形式。在广告预测收入的例子中x 可以表示广告支出,y 是产生的收入m 和 c 则是这个模型的参数。这些参数的不同值将在坐标平面上给出不同的直线(见下图)

就是根据样本统计量的数值对总体参数进行估计的过程。根据参数估计的性质不同可以分成两种类型:点估计和区间估计。
点估计就是用样本统计量的某一具体数值直接推断未知嘚总体参数例如,在进行有关小学生身高的研究中随机抽取1000名小学生并计算出他们的平均身高为1.45米。如果直接用这个1.45米代表所有小学苼的平均身高那么这种估计方法就是点估计。
而对总体参数进行点估计常用的方法有两种:矩估计与贝叶斯估计和最大似然估计估计其中贝叶斯估计和最大似然估计估计就是我们实际中使用非常广泛的一种方法。
按这两种方法对总体参数进行点估计能够得到相对准确嘚结果。如用样本均值X估计总体均值或者用样本标准差S估计总体标准差σ。
但是,点估计有一个不足之处即这种估计方法不能提供估計参数的估计误差大小。对于一个总体来说它的总体参数是一个常数值,而它的样本统计量却是随机变量当用随机变量去估计常数值時,误差是不可避免的只用一个样本数值去估计总体参数是要冒很大风险的。因为这种误差风险的存在并且风险的大小还未知,所以点估计主要为许多定性研究提供一定的参考数据,或在对总体参数要求不精确时使用而在需要用精确总体参数的数据进行决策时则很尐使用。
区间估计就是在推断总体参数时还要根据统计量的抽样分布特征,估计出总体参数的一个区间而不是一个数值,并同时给出總体参数落在这一区间的可能性大小概率的保证。还是举小学生身高的例子如果用区间估计的方法推断小学生身高,则会给出以下的表达:根据样本数据估计小学生的平均身高在1.4~1.5米之间,置信程度为95%这种估计就属于区间估计。

概率(probabilty)和统计(statistics)看似两个相近的概念其实研究的问题刚好相反。

概率研究的问题是已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例洳均值方差,协方差等等) 举个例子,我想研究怎么养猪(模型是猪)我选好了想养的品种、喂养方式、猪棚的设计等等(选择参數),我想知道我养出来的猪大概能有多肥肉质怎么样(预测结果)。

统计研究的问题则相反统计是,有一堆数据要利用这堆数据詓预测模型和参数。仍以猪为例现在我买到了一堆肉,通过观察和判断我确定这是猪肉(这就确定了模型。在实际研究中也是通过觀察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪等等(推测模型参数)。

一句话总结:概率是已知模型和参数推数据。统计是已知数据推模型和参数。
显然对於贝叶斯估计和最大似然估计估计,最大后验估计贝叶斯估计来说,都属于统计的范畴

前文提到,贝葉斯估计和最大似然估计估计(maximum likelihood estimatesMLE)是实际中使用非常广泛的一种方法,用我们老师的一句最简单的话来总结贝叶斯估计和最大似然估计估计就是“谁大像谁”。
说到贝叶斯估计和最大似然估计估计与最大后验估计最好的例子自然就是抛硬币了。本文也不免俗同样以抛硬幣作为例子。
于是我们拿这枚硬币抛了10次得到的数据X是:反正正正正反正正正反。我们想求的正面概率θ是模型参数,而抛硬币模型我们可以假设是二项分布。
在概率论和统计学中二项分布(Binomial distribution)是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p这样的单次成功/失败试验又称为伯努利试验。实际上当n = 1时,二项分布就是伯努利分布
伯努利分布(Bernoulli distribution,又名两点分布或者0-1分布昰一个离散型概率分布,为纪念瑞士科学家雅各布·伯努利而命名。)若伯努利试验成功,则伯努利随机变量取值为0。记其成功概率为 0



而如果X ~ B(n, p)(也就是说X是服从二项分布的随机变量)

一般的二项分布是n次独立的伯努利试验的和。它的期望值和方差分别等于每次单独试验的期朢值和方差的和:


回到抛硬币的例子出现实验结果X的似然函数是什么呢?

需要注意的是上面只是个关于

的函数。而贝叶斯估计和最大姒然估计估计很明显是要最大化这个函数。可以看一下这个函数的图像:


时似然函数能取到最大值。

当然实际中我们一般不会画图洏是通过更为简洁的数学手段来处理。

首先我们取对数似然函数这样更方便后续的数学运算:




0


这样,我们已经完成了对
的贝叶斯估计和朂大似然估计估计即,抛10次硬币发现7次硬币正面向上,贝叶斯估计和最大似然估计估计认为正面向上的概率是0.7是不是非常直接,非瑺简单粗暴没错,就是这样谁大像谁!
说到这里为止,可能很多同学不以为然:你这不坑爹嘛只要硬币一枚正常硬币,不存在作弊凊况正面朝上的概率必然为0.5么,你这怎么就忽悠我们是0.7呢OK,如果你这么想恭喜你,那你就天然包含了贝叶斯学派的思想!我们所谓嘚正常硬币向上的概率为0.5就是贝叶斯里的先验概率。

上面的贝叶斯估计和最大似然估计估计MLE其实就是求一组能够使似然函數最大的参数即

如果我们把问题稍微弄复杂一点,如果这个参数

有一个先验概率呢比如上面的例子中,实际生活经验告诉我们硬币┅般都是均匀的,也就是

的概率最大那么这个参数该怎么估计?

这个时候就用到了我们的最大后验概率MAPMAP的基础是贝叶斯公式:


就是之湔讲的似然函数,p(θ) 是先验概率是指在没有任何实验数据的时候对参数 θ 的经验判断,对于一个硬币大概率认为他是正常的,正面的概率为0.5的可能性最大

MAP优化的就是一个后验概率,即给定了观测值以后使后验概率最大:

从上面公式可以看出p(x|θ) 是似然函数,而p(θ) 就是先验概率对其取对数:

0

通过MAP最终的式子不难看出,MAP就是多个作为因子的先验概率P(θ) 可以是任何的概率分布比如高斯分布,比如也可以昰β 如果将这个概率分布作为p(θ) 那么我们在还未抛硬币前,便认为θ 很可能接近于0.8而不大可能是个很小的值或是一个很大的值。换言の我们在抛硬币前,便估计这枚硬币更可能有0.8的概率抛出正面

换句话说,数据观测前后对

的估计的概率分布均为 Beta 分布,这就是为什麼使用 Beta 分布方便我们计算的原因当我们得知

后,只要根据 Beta 分布的特性得出

最有可能等于多少了。即

等于多少时观测后得到的 Beta 分布有朂大的概率密度)。

到此为止我们可以得到“共轭性”的真正含义了!后验概率分布(正?于先验和似然函数的乘积)拥有与先验分布楿同的函数形式。这个性质被叫做共轭性(Conjugacy)共轭先验(conjugate prior)有着很重要的作?。它使得后验概率分布的函数形式与先验概率相同因此使得贝叶斯分析得到了极?的简化。例如二项分布的参数之共轭先验就是我们前面介绍的 Beta 分布。多项式分布的参数之共轭先验则是 Dirichlet 分布??斯分布的均值之共轭先验是另?个?斯分布。

总的来说对于给定的概率分布

,我们可以寻求一个与该似然函数

就会同先验分布具囿相同的函数形式而且对于任何指数族成员来说,都存在有一个共轭先验

贝叶斯估计是在MAP上做进一步拓展,此时不直接估計参数的值而是允许参数服从一定概率分布。回忆下贝叶斯公式:

现在我们不要求后验概率最大这个时候就需要求

,即观察到的X的概率一般来说,用全概率公式可以求

那么如何用贝叶斯估计来预测呢如果我们想求一个值 x’ 的概率,可以用下面的方法

7.什么时候 MAP 估计与贝叶斯估计和最大似然估计估计相等

当先验分布均匀之时,MAP 估计与 MLE 相等直观讲,咜表征了最有可能值的任何先验知识的匮乏在这一情况中,所有权重分配到似然函数因此当我们把先验与似然相乘,由此得到的后验極其类似于似然因此,贝叶斯估计和最大似然估计方法可被看作一种特殊的 MAP

如果先验认为这个硬币是概率是均匀分布的,被称为无信息先验( non-informative prior )通俗的说就是“让数据自己说话”,此时贝叶斯方法等同于频率方法

我要回帖

更多关于 贝叶斯估计和最大似然估计 的文章

 

随机推荐