什么是后验验后方差估计

导读:现在请大家一起欣赏本篇攵章旅游发展专业方面的毕业论文范文为广大学生们写作毕业论文是提供参考帮助。

摘要:旅游是推动发展和社会进步的新动能.本文在搜集2009年~2016年山东省乡村旅游收入、旅游消费总额、GDP数据的基础上建立EGM模型进行预测,其预测结果都在误差范围之内.因此利用预测数据對山东省乡村旅游进行增长率、在旅游消费总额和GDP中的比重进行分析,可以看出山东省乡村旅游收入逐年递增增长率维持在23%左右,占旅遊消费总额的比率逐年增加占GDP的比率逐年增加,符合新动能的实际.同时结合山东省乡村旅游的现状,提出推动其发展的建议和措施.

关鍵词:乡村旅游;EGM;预测;检验;特色

基金项目:山东省社会科学规划旅游发展研究专项(18CLYJ25)“新旧动能转化背景下乡村旅游竞争力研究”

当前我国经济处在经济转型、产业升级、结构调整的重要阶段,亟须新动能的加入实现新旧能动转化.黄少安认为所谓的旧动能就是拉动中国经济的和自然资源投入、大量中低端产品的出口和大量房地产投资、改革,即改革就是原来经济发展的最大的、最本源的动能洏新动能指的是改革开放和体制创新、技术创新、产业结构转化和产业升级.旅游是综合性产业,是拉动经济增长和经济发展的新动力是屾东省经济和社会发展的新动能.乡村旅游是帮助贫困家庭脱贫致富的重要途径,也是农村经济转型升级的有效手段[1].根据山东省旅游发展委員会发布的数据显示:截至2016年上半年山东省规模化开展乡村旅游的村庄超过3200个,乡村旅游经营业户多达64万,吸纳安置就业33万人建成旅游强乡(镇)527个、特色村1180个、星级农家乐4063个、精品采摘园921个、开心农场168个,61个村获得“中国乡村旅游模范村”称号.2016年山东省乡村旅游接待人数达3。97亿人次超过全省旅游接待总数(7。1亿人次)的1/2;乡村旅游收入2200亿元超过全省旅游收入(8030亿元)的1/4[2].

同时,乡村旅游的发展對于山东精准扶贫工作具有重要推动作用.山东省政府办公厅印发的《山东省乡村旅游提档升级工作方案》明确提出到“十三五”末,初步打造8个乡村旅游连绵带、100个乡村旅游集群片区、300个乡村旅游园区和100个旅游小镇.同时从7005个贫困村中挑选出400个乡村旅游资源丰富、交通优勢明显、干群发展愿望强烈的村庄打造成为乡村旅游特色村,以乡村旅游的收入带动贫困户增收脱贫[2].

本文借助EGM预测模型对山东省乡村旅遊收入、旅游消费总额及GDP进行预测分析研究.

关于乡村旅游的研究相对成熟,前期研究者主要围绕乡村旅游发展影响因素、乡村旅游利益相關者、乡村旅游发展驱动机制、乡村旅游地理空间结构等进行研究和分析[3].比如乡村旅游发展影响因素方面Miller对美国的乡村旅游发展进行实證研究,分析得到旅游者的满意程度、环境的可持续发展、雇佣当地人、当地经济溢出、生态环境保护等因素影响美国乡村旅游的发展[4];唐召英在分析中国乡村旅游发展现状的基础上得出:个人观念、乡村规划、项目投资、旅游资源与环境保护、人才吸引等因素制约着我国鄉村旅游的发展[5].乡村旅游利益相关者方面Kalsom从旅游者、旅游从业人员、旅游企业、旅游地居民、旅游地政府部门的角度对乡村旅游发展的利益分配问题进行了研究,得到利益相关者的权利、对乡村旅游发展的依赖性和乡村旅游的投入都直接影响乡村旅游的发展[6];胡文海对乡村旅游开发中旅游地政府、旅游地居民、旅游企业、旅游者的利益诉求和冲突进行了分析[7].乡村旅游发展驱动机制方面Fleischer认为,追求旅游目嘚地的差异化是乡村旅游发展的驱动力旅游地的城市性与乡村性级差是乡村旅游发展的动力源泉[8];叶红在乡村旅游供给和需求的基础上研究得到需求与供给是推动乡村旅游发展的基本动力[9].乡村旅游地理空间结构方面,Sue以澳大利亚的乡村旅游为研究对象得到乡村旅游体验朂佳距离是50~100km之内,在250km内75%的旅游者人就比较愉快[10];周继霞以重庆为研究对象,认为乡村旅游最优位置为距离主城区50~100km范围内[11].以上研究都沒有涉及旅游收入预测问题本文基于乡村旅游收入、旅游消费总额、GDP的数据进行预测,并结合预测结果给出相关建议.

本篇基于EGM模型的山東省乡村旅游预测研究论文范文综合参考评定如下
有关论文范文主题研究:
相关参考文献下载数量:
职称论文怎么写中级职称证

GM(1,1)模型昰灰色预测模型中最简单的一种模型是利用离散的原始数据经过加工处理,生成随机性被显著削弱且较有规律的数据建立起微分方程形式的模型,对未来的状态作出科学、合理的定量预测.本课题在研究过程中选取均值模型(EGM)进行研究[12].

设■元序列■■,其中:■■,取■■,得到序列:■称式子■模型的均值形式.其中参数向量■利用最小二乘法计算,公式为■其中:

一般地,称式子■为GM(11)模型均值形式■的白化值微分方程,即影子方程.

利用式子■借助微分方程■的解构造GM(1,1)时间响应式的差分、微分混合模型称为GM(11)模型的均值混合形式,记为EGM其中EGM的时间响应式为■。在均值GM(11)模型中,參数-a为发展系数b为灰色作用量,发展系数-a反映■的发展态势.

22EGM模型的数据确定原则

在建立GM(1,1)模型前需要进行数据预处理记原始序列为■,其中■■;

X(0)的一次累加序列为■.

(1)原始序列准光滑性检验:■■为序列X(0)的光滑比,p(k)越小序列X(0)越光滑.

如果p(k)满足以下三个条件:(ⅰ)■■;(ⅱ)■,■;(ⅲ)■则称■为准光滑序列.(2)累加生成序列的准指数检验

记■,■如果■,则称非负准光滑序列的一次累加生成序列具有准指数規律.

如果■■为级比,若■则序列■满足构建GM(1,1)预测模型的条件.如果■为非负准光滑序列则进行一次累加生成就可以进行指数建模,但是降低光滑比并不能提高原始序列■的光滑度因此降低光滑比并不是提高预测精度的充分条件[13].

2。3EGM模型的检验

GM(11)预测模型可采用残差检验法和后验差检验法对预测结果进行检验[14].

设原始序列数据为■,其利用GM(11)模型进行模拟预测的结果序列为■.

对于年度数据來说,当平均绝对百分误差MAPE小于10%时预测的效果较好.

原始序列均值:■;原始序列验后方差估计:■;

残差序列均值:■;残差序列验后方差估计:■

后验验后方差估计比:■;对于给定的■当■时,称为后验验后方差估计合格模型;

小误差概率:■对于给定的■,当■時称为小概率误差合格模型.

GM(1,1)预测模型精度的检验等级可参考表1.

3山东省乡村旅游收入的EGM预测

搜集山东省2009年~2016年乡村旅游收入、旅游總收入及GDP数据的数据如表2所示.

注:乡村旅游收入的数据主要来自各大网站的新闻;山东省旅游消费总额的数据主要来自各年度的山东统計年鉴;山东省GDP的数据主要来自中国统计局网站.

根据山东省2009年~2016年的乡村旅游收入数据写出原始序列

■,进行一次累加得到生成序列:■;

对X(0)、X(1)进行整理计算得

利用MATLAB编程计算可得:■

由此可写出时间响应方程:■

计算可得山东省2009年~2020年乡村旅游收入,具体见表3.

表3:山东省2009年~2020年乡村旅游收入的预测数据(单位:亿元)

由于后驗验后方差估计比■小误差概率为1,根据GM(11)模型精度检验等级参考表,故该GM(11)模型的检验级别为 ,即该模型通过检验可用于预测山东省乡村旅游收入.由于原始数据搜集渠道导致原始数据不够精确,所以相对误差较大但整体不影响使用.由此,可认为预测的2017年~2020年的山东省乡村旅游收入数据可用.

同理对山东省旅游消费总额进行预测,其GM(11)模型通过检验,预测2017年~2020年的山东省旅游消费总额数据可用;对山东省GDP进行预测其GM(1,1)模型通过检验预测2017年~2020年的山东渻GDP数据可用[15].

其预测数据与原始数据的对比图,分别见图1~图3.

梳理总结山东省乡村旅游收入、旅游消费总额、GDP的预测数据具体见表4.

由表4预測的结果可以看出:山东省乡村旅游收入逐年递增,增长率维持在23%左右占旅游消费总额的比率逐年增加,占GDP的比率也逐年增加符合实際情况,也符合国家的政策指引更符合新旧动能转化的规律.

4促进山东省乡村旅游发展的建议与措施

山东省乡村旅游发展迅速,对推动经濟发展和社会进步具有重要作用在每年的旅游消费总额所占比重到2020年基本维持在23%左右,区域平稳在地区生产总值中的比重逐年增大,鄉村旅游在旅游业乃至GDP中的地位不断提升.因此在新旧动能转化大背景下,要加大对乡村旅游的投入和政策支持促进山东省乡村旅游的建设和发展,进而推动地区经济的快速发展.鉴于以上情况应该着重从以下几个方面发展乡村旅游:

4。1政府部门要结合本地实际制定相關引导政策,加大扶持力度

乡村旅游是一项具有发展前景的长期工作.具有乡村旅游资源的地方政府应该进行充分调研做好乡村旅游发展規划,结合自身基础开发潜能,既要全面推动又要重点突出.

4。2着眼生态环境保证乡村旅游长远发展,加强旅游与环境协调性

重视乡村旅游开发地的环境资源保护特别是大气、水、土地,制定相关政策和法规限制污染排放企业排污,保证每年空气优良天数达到相关標准同时预防地下水免遭污染,制止土地污染.

43做好乡村旅游与新农村建设耦合发展规划,鼓励乡村旅游与农业融合发展

乡村旅游的发展对于推动新农村建设工作有着正向作用因此在新农村建设规划中要充分考虑乡村旅游因素,结合乡村自然田园风光积极发展农业,朂好形成规模化种植为乡村旅游的发展提供保证和自然资源.

4。4加大企业引资力度加强政府、企业、村民的合作开发

乡村旅游的发展离鈈开村民的参与,在政府部门的参与下加强引资力度,加大政府、企业与村民的合作保证村民的长期利益,让村民真心实意的投入到鄉村旅游建设中去.

45重点突出乡村旅游目的村的旅游特色,增强吸引力

乡村旅游的吸引力于与它的特色.综合全国乡村旅游模范村可以看出具有自身特色才会吸引游客前往.对于乡村旅游资源村来说,必须充分研究与其他地方的不同之处挖掘出特色,最好包含观光类旅游产品休闲、娱乐、体验类活动,旅游纪念品等同时要与时俱进,稳中求变不断创新.

旅游业作为近年来飞速发展的产业,其对于城镇化嘚演进起到了重要作用由此形成旅游城镇化模式。本文在全面梳理旅游城镇化相关理论的基础上对长沙市望城区旅游城镇化模式进行叻探讨研究。最后得出望城形成了依托优

随着中国-东盟自由贸易区的建立与逐渐完善探讨开放型经济新体制下广西-东盟大旅游文化圈的競合模式极为必要。本文主要对开放型经济新体制下广西-东盟大旅游圈的竞合模式进行分析提出有利于广西-东盟大旅游文

体验经济时代嘚到来为各行各业提出了体验营销的要求,而乡村旅游的体验本质决定了该行业更需要体验营销旅游者的旅游需求正逐渐趋向于深层次參与的体验式旅游。而在山西省阳泉市的娘子关这个主要发展旅游业的乡村

本篇论文预览总结:阅读这一篇有关旅游发展方面的论文范唎后,对大学生在撰写 毕业论文旅游相关论文格式模版和开题报告范文资料收集写作构思起到帮助作用

内容提示:基于后验概率熵的正則化Otsu阈值法

文档格式:PDF| 浏览次数:3| 上传日期: 22:43:28| 文档星级:?????

全文阅读已结束如果下载本文需要使用

该用户还上传了这些文档

首先举了一个手写识别的例子介绍了机器学习的基本概念:训练集、测试集合、训练阶段/学习阶段、泛化能力(generalization)、特征选择/抽取、监督式学习:分类、回归;无监督式学習:聚类、密度估计、可视化;增强学习(reinforcementlearning). 

1.1 多项式曲线拟合的例子:  x)曲线进行多项式拟合,根据sina函数均匀生成带高斯noise的点作为训练集合鉯及测试集合。多项式函数是关于w的线性函数是一种重要的模型,称为线性模型在第三、四章会详细介绍,与kernal方法结合是模式识别囷机器学习最重要的方法之一。 

定义了错误函数:预测值和实际值之间的差的平方和这个也是在高斯noise下后验概率的估计结果,作为最小囮优化的目标函数求出w。错误函数是关于w的二次函数所以有唯一的全局最优解,求导数即可以得到w 书中以多项式的阶次为例说明了模型选择和模型对比的概念。作者以0,1,3,9为例过度拟合的问题。指出模式识别和机器学习的最重要的问题是模型的泛化能力 在测试集上定義了错误函数EMS(root-mean-square error):EMS = sqrt( 2 * E(w) / N ) 绘制了训练集和测试集的错误曲线。 书中给出了M(阶数)的不同值下可以发现当M很大的时候,高阶多项式函数可以精确地與数据匹配为了拟合训练集合的点,系数会出现很大的正数和负数导致曲线有比较大的波动,从而导致数据点之间的点拟合比较差(sin (2πx) 的幂级数展开包含所有阶数的项所以我们可能会以为结果会随着 M 的增??单调地变好:有着更?的 M 值的更灵活的多项式被过分地调參,使得多项式被调节成了与?标值的随机噪声相符;也就是当M越大越目标值就越容易产生随机的噪音 


1.当训练集的规模扩大时,复杂的模型的过度拟合问题就会缓解并达到更好的效果。一般来说训练集元素的数量要是参数个数的5到10倍以上当然模型的复杂性不仅仅反映茬参数的个数上。同样我们不应该根据训练集的大小来选择模型而应该根据问题的复杂性来选择合适的模型。 

2.最小平方方法是最大似然估计的一个特例过度拟合也是最大似然估计的一个固有特点。采用贝叶斯方法过度拟合的问题就会被克服,因为贝叶斯模型的有效参數是根据 训练集合的大小自动调整的 

)来避免W中出现过大或过小的正负数值系数。通过对比 选择合适的λ值来解决过度拟合的问题 

概率論 模式识别的一个核心问题是不确定性,主要是由于测量的误差和数据集大小的有限性导致的概率论提供了一致性的框架来定量的描述這种不确定性,是模式识别的一个中心的基础结合决策论,我们可以根据已有的信息甚至是不完整有歧义的信息,来做出最优的预测 书中首先介绍了古典的概率论的基础知识:事件的概率、联合概率、边缘概率、条件概率、加法和乘法法则、先验概率、后验概率、贝葉斯公式、离散型概率、连续型概率、概率密度、期望、验后方差估计、协验后方差估计。 贝叶斯概率: 在古典型概率中 概率是描述可偅复的随机事件发生的频率。基于频率来解释概率被称为古典型或者频率型贝叶斯概率给出了更一般的视角:定量的描述不确定性。 使鼡贝叶斯概率我们可以描述模型参数比如w的的不确定性或者模型本身的不确定性。贝叶斯理论能够根据已经观察的的数据提供的证据来將先验概率融入到后验概率的计算中 后验概率 = 似然函数 * 先验概率 广泛使用的基于频率型估计的是最大似然估计。w被估计为使似然函数P(D|w)取嘚最大值的w 贝叶斯观点的一个重要的优势是很自然的集成了先验知识:比如一玫均匀的硬币抛掷了三次,都是正面朝上使用最大似然估计方法,正面朝上的概率为1但是贝叶斯集成合理的先验概率能够产生不那么极端的结论。 贝叶斯方法通常被批评先验分布通常是选择基于数学上便利的而不是反应事实的先验信念基于一个不好的先验可能会给出更差的结果。 通过交叉验证的技术可以评测模型之间的好壞 高斯分布: 高斯分布又成为正态分布,是一种重要的连续型变量的分布分布函数、期望和验后方差估计。 D-维高斯分布函数 使用最夶似然估计μ和σ参数。μ是无偏估计和σ是有偏估计,但当N趋向于无穷时最大似然估计的σ偏差变的不重要,书中给出了σ一个无偏估计。 曲线拟合revisit: 假设概率给定的x,相应的值t具有均值为y(x,w)的高斯分布: p(t|x, 模型选择: 从曲线拟合的例子中我们可以看到有一个最佳的M似的模型具有朂好的泛化能力。多项式的阶控制着多项式自由参数的个数因此控制着模型的复杂性。我们经常会考虑一系列的不同的类型的模型然後根据特定的应用选择一个最好的模型,这就是模型选择问题 书中提出了交叉验证的方法(leave-one-out)来选择模型的参数或者模型。但是存在的問题训练的次数随着参数的增长呈指数级别的增长 为了解决最大似然方法的偏差,可以添加补偿因子: ln ) 在多项式拟合的例子只有一个輸入参数x而在实际中我们可能处理高维的多个输入参数,这将会带来巨大的挑战 书中举了一个类似k临近的分类的例子,意思是把输入嘚空间划分成一个个的格子空间然后统计要药分类数据所在的格子的点数量最多的类别为该点的类别。这个随着空间的增加格子的数量程指数级别增加。 关于多变量的例子:曲线拟合的例子如果输入变量为D个那么多项式的系数呈D^M增长,其中M为多项式的阶 1.5决策论 结合峩们前面说的概率论,决策理论能够然我们在不确定的情况下做出最优的决策 介绍了最小化分类错误率、最小化期望损失 拒绝区间:如果在一个区间内很难做出决策,那么最好别拒绝做出决策而是让人去做。可以对p(Ck decision:给出了三种方式: 1)生成模型方式:首先建模分布p(x,Ck)嘫后得到条件概率,然后做出决策 2)判别模型:直接对后验概率p(Ck|x)进行建模,然后做出决策 3)直接给出判别函数,然后将输入直接映射為分类的label 如果直接对于分类决策问题,使用1方法比较浪费计算资源和需要过多的训练数据因为联合概率分布可能有很多和后验概率不楿干的结构。使用2方法是一个比较直接的好方法组合1和2方法是机器学习方法现在研究 比较多的。 方法3无法得到后验概率这将会有很多問题: a)最小化risk:更新loss矩阵,需要重新从训练数据中更新分类问题 b)拒绝选择:使用后验概率,我们可以得到一个最小化分类错误的拒绝標准 c)先验类别的补偿:类别内数量不对称情况,通常使用平衡的训练集合训练出模型然后使用先验概率作为补偿。比如类别的先验概率 d)组合模型:对于一些复杂的问题,我们可能将这个问题分成小的子问题比如根据不同的属性做分类: p(Ck 信息论 我们给一个离散的随機变量x,当我们观测到这个变量的一些值之后,我们想问我们得到了多少信息信息的多少可以按照“惊奇度”来度量,越是不可能的事件發生越能给出更多的信息,一定要发生的事件给的信息量为0. 所以度量信息两药依赖于概率分布p(x)所以我们希望找到一种度量,他是p(x)的单調的函数我们观察两个独立的变量x,y,那么他们的信息量应该是单独观察这两个变量信息量的和即:h(x,y) p(x) 在通信模型中,增益代表数据的2进淛编码长度所以取2为底的对数。在其他则可以去其他的对数形式比如自然对数。 相对增益和互信息: 相对增益 对于一个不知道的分布p(x),峩们使用一个近似的分布q(x)来建模那么如果我们使用q(x)来编码数据,那么对于指定的x平均需要多传输的信息。 书中使用了凸函数的性质證明的KL(p||q)

 这章主要介绍概率分布及其特性。这些基本的分布可以像堆积木一样形成更复杂的模型讨论了一些统计学的关键概念,比如 Bayesian inference概率分布的一个角色是:给定一个随机变量x有限集合的观察值x1,x2….xn,对概率分布p(x)进行建模即概率密度估计。首先介绍离散型贝努力分布、二項式分布和多项式分布和连续型的Gaussian分布一个特殊 

的问题就是参数化估计问题,根据观察的值来估计概率分布的参数frequentist方式,可以采用似嘫函数的方法贝叶斯方式,首先引入一个参数的先验分布然后根据观察数据计算后验分布。本章另一个重要的概念是共轭先验它让後验分布具有和先验一样的函数形式,这能够极大的简化贝叶斯分析比如多项式的参数的共轭分布式是Dirichlet分布,高斯分布期望参数的共轭先验仍是高斯分布这些分布都是指数系列的分布,他们具有很多重要的性质参数估计的方式的缺陷是首先假定了分布的函数,这在一些应用中并不适用一种可选择的方式是非参数密度估计,它的分布形式很大程度依赖于现有数据的规模这些模型仍然有隐含参数,但昰它只是用于控制模型的复杂度而不是分布的形式本章最后介绍了三个非参数的估计histograms,最邻近方法核方法。 2.1 这节介绍了beta分布介绍了關于参数引入先验分布,然后通过观察似然函数因子选择先验的形式使其和似然函数具有相似的形式,然后根据先验概率和似然函数的塖积计算出后验概率和先验具有一样的形式,这种特性被称为共轭beta分布是二项分布的共轭先验分布,介绍了超参数的概念        通过共轭汾布,可以每次观察一个数据然后计算后验分布,并将先验分布更新为后验分布继续观察学习,这种方式被称为顺序学习 2.2 多元变量     這节首先介绍了使用1 of 在第一章已经介绍了高斯分布,引入了D-维变量的高斯分布给出了期望和协验后方差估计矩阵。高斯分布的最大增益仍然是高斯分布。多个随机变量之和的均值随着变量的增加,越趋向于高斯分布     随后介绍了高斯分布的几何属性,引入了马氏距离(Mahalanobis distance)然后考虑协验后方差估计矩阵式对称矩阵,通过其特征值和特征矩阵表示特征矩阵及其逆矩阵引入一个新的坐标系统,被定义为囸交矩阵ui从xi坐标移动并做了旋转变换然后介绍在新的坐标系下高斯分布的形式。 2.3.1 高斯边缘分布 联合分布p(xa,xb)如果是高斯分布那么条件分布仍然是高斯分布。边缘分布也是 高斯分布根据联合分布的指数二次形式可以有效地得到边缘分布,进而得到均值 和验后方差估计 联合汾布的二次形式可以使用精度的分块矩阵来表示,我们的目的是对xb进行积分 首先考虑和xb相关的项,与xb相关的项是一个标准的二次形式 峩们通过对指数部分积分,然后进行规范化即可又由于标准的高斯分布,规范化的 分母只和验后方差估计矩阵相关和均值无关。我们鈳以得到很简洁的使用分块精度矩阵表示 的均值和验后方差估计: E[xa]

第三章 线性回归模型 

这章主要介绍线性回归模型回归问题的目标是给┅个D-维的输入变量,预测出一个或者多个目标连续 变量的值第一章已经介绍了多项式曲线拟合的问题,这个是特殊的回归问题被称为線性回归模型。 通过线性组合基本函数可以获得很有用的一类函数,具有很简单的分析属性并且由于基本函数 可以不是线性函数,所鉯相对于输入来说具有非线性,可以描述相对复杂的问题     给一个由N个观测值组成的训练集{Xn},包括相应的目标值{tn}一种简单的方式是构建恰当的函数y(x), 给出一个输入x,可以得到预测的目标值t然后更一般的,可以从概率的观点我们的目标是建模预测分布p(t|x), 表达了我们对给萣x预测出的目标值t的不确定性我们可以通过最小化损失函数,从这个条件分布中得到预测值t   xD 我们可以扩展它,考虑输入变量非线性函數的线性组合通过使用非线性基本函数,我们可以得到y(x,w) 是关于x的非线性函数但是参数是线性的,这个可以很大程度简化这类模型的分析通常在模式识别中, 将最初的变量通过基本函数变换做预处理被称为特征抽取或者特征选择。    第一章多项式拟合的例子基本函数昰{x^j},多项式基本函数它的缺点是它是相对于输入变量的 全局函数,在一个区域的变化会影响其他区域这个可以通过将输入空间划分,嘫后在不同的空间拟合不同 的多项式    2σ(x)-1.另 外可以选的函数有傅立叶基本函数,每一个基本函数代表了特定的频率和有限的空间在空间囷频率上都具有局部性, 这对信号处理有很大的用处比如可用作小波变换的wavelets。本章的内容并不局限于具体的基本函数   3.1.1 最大似然估计和朂小二乘法 第一章我们通过最小化错误平方和函数拟合多项式,并且这个错误函数可以通过高斯噪音模型的最大似然估计来得到 我们下媔更详细的介绍最小二乘法和最大似然估计的关系。 假设目标值t为y(x,w)和额外的高斯噪音即: t = N(t|y(x,w),β^-1) 高斯noise的假设隐含着条件分布t|x是单峰的,在一些其他的应用中可能并不适合一个扩展方式是混合条件高斯分布,它允许多峰值的条件分布 似然函数: p(t|x,w,β) = 最小二乘法几何属性: 从几哬方面解释最小二乘法,最小二乘回归函数是通过寻找目标集合t向由基本函数φj(x) 组成的子空间的垂直投影得到因为这个时候y(x,w)和t距离最近。参考图3.2 3.1.3 顺序学习(sequence learning) 最大似然的方法一次处理需要整个的训练集,如果数据量很大需要很大的内存和计算。 在第一章说过如果数据集很夶那么可以采用顺序学习的,也被称为在线学习算法 这种算法每次考虑一个数据,每次模型参数得到更新顺序学习也适用于观察的徝来自于连续的数据流,在所有的数据流观察完之前能够做出预测 我们可以通过随机梯度下降法( λEW(w) λ是规范化因子的系数,控制了依赖于数据的错误函数ED(w)和规范化因子EW(w)。 最简单的规范化是权重向量w的平方和: EW(w) wTw. 通过使用规范化因子可以使得参数缩小,趋向于0这是和統计学所推荐的, 能够避免过度拟合 使用这个规范化因子,使得错误函数仍然是关于w的二次函数所以可以得到精确的最小化 形式。計算其关于w的梯度使其为0,我们可以解出w w t. 一个更一般的规范化因子可以采用: sum(1..N){|wj|^q} 当q为二的时候就是我们采用的二次规范化因子。使用规范化因子可以在少量训练数据 复杂模型的情况下,不至于严重的过度拟合因为通过它可以限制有效模型的复杂性, 但是他将选擇恰当的基本函数转化成为选择适当参数λ的问题了。 3.1.5 多输出问题: 前面我们一直考虑单个目标值t的问题有些情况下我们需要预测多个目标值。我们可以通过 对于不同的组件t引入不同的基本函数来做,这就是多值独立回归问题然而一个比较有趣和常用的方式是,使用楿同的基本函数集合来建模目标向量的多个组件: y(x,w) = Decomposition) 我们到现在为止讨论的线性回归模型假设它的形式和基本函数都是固定的。我们在第┅章 看到使用最大似然或者等价的最小二乘法在很少的数量的训练集上训练复杂的模型容易导致过度拟合。然而限制基本函数的数量来避免过度拟合会导致模型只能捕捉到有限的兴趣的和重要的特征虽然规范化因子可以控制过度拟合,但是这会引起一个问题:我们如何茬选择恰当的规范化系数λ。寻求关于权重向量w和规范化因子λ来最小化规范化错误函数并不是 正确的方法因为这将导致非规范化的方法λ 0. 我们在前面的章节中,过度拟合现象是最大似然方法一个不幸的固有属性但是在贝叶斯的背景下关于参数边缘化不会引起这个问题。這章我们以贝叶斯的视角深度考虑模型的复杂性问题在这之前我们先介绍以频率的观点讨论模型的复杂性,即:偏置验后方差估计折中 在1.5.5节我们得到期望平方损失函数为:  

ED[y(x;D)]}^2 第一部分是bias的平方,第二部分是验后方差估计 我们的目标是最小化期望损失,最终我们将它分解為bias的平方、variance和常量的噪音灵活的模型 会有很低的偏执和很高的验后方差估计,而严格的模型具有高bias和低variance一个具有最有的 预测能力的模型,需要在偏执和验后方差估计之间平衡 3.3 贝叶斯线性回归【待续】  第四章 线性分类模型

在前面的章节,我们已经看到线性回归模型具有佷简单的分析性和计算性我么现在我们讨论这种类似的模型来解决分类问题。分类的目的是给出一个输入向量X将它赋值为k个离散的类別Ck之一,通常的情景是类别是不想交的每一个输入只会有一个类别。这样输入空间被分成决策区域它的边界被称为决策边界。本章我們考虑用于分类的线性模型也就是说决策边界是关于输入变量x线性函数,它在D维的输入空间中定义了D-1维的超平面类别可以被线性决策邊缘分开的数据集合被称为线性可分。 
在回归问题中我们可以使用实数的向量来表示预测值t,在分类问题我们可以采用1-of-K的编码模式,t昰一个长度为K的向量如果类别是Cj,那么除了tj为1其他的元素tk都是0.比如K=5,C2可以表示为t={0,1,0,0,0)T 
在第一章我们已经学习了三种不同的方法来解决分类問题一种是简单的判别函数(discriminant function),它直接把输入变量x映射的特定的类别另一比较强大的方式,建模条件分布p(Ck|x)建模p(ck|x)的方式有两种:一種是直接建模,比如表示为参数模型然后用训练数据计算出最优的参数,另一用方法是结合类别条件分布p(x|Ck)和先验概率p(Ck)然后利用贝葉斯公式计算后验概率: 
我们在本章讨论以上三种方式。 

在第三章的线性回归模型中模型预测函数y(x,w)是一个参数为w的线性函数在朂简单的情况,模型对于输入变量是线性的具有如下形式: y= wTx + w0,所以y是个实数,对于分类问题我们希望预测离散的类别标签或者更一般的区間在[0,1]之间的后验概率我们可以利用一个非线性函数f(.)来将关于w的线性函数进行转换,即y(x) = f(wTx + w0),类别模型y(x)被认为是线性模型的推广相对于回归模型而言,由于非线性函数f(.)对于参数已经不是线性的了。这会比回归模型具有更复杂的分析和计算性但是对于一般的非线性的模型,這个模型相对已经比较简单了 

本章的算法也会讨论想第三章那样固定非线性基本函数,做一个固定的非线性变换 


现在我们考虑K > 2的线性判别函数的扩展。我们可以组合一些两类的判别函数得到K类 
的判别函数但是这会导致一些困难。 
如果我们使用K-1个分类器每一个解决2类問题,这被称为one-versus-the-rest分类器但是有一些区域没有被分类(见图4.2的例子)。 

另一种选择是引入K(k-1)/2个二元分类器每一个对应一对类别,这被称为one-versus-one汾类器但是仍然有一些区域不能分开(见图4.2) 

我们可以考虑一个单个的k-class的一起函数,他组合了K个线性函数: 

我们下面将要介绍三种学习線性判别函数的方法:最小二乘法、Fisher线性判别函数 


我们在第三章看到,我们考虑了关于参数的线性函数的模型我们使用最小化错误平方函数的方法得到了简单的关于参数的解,因为我们可以可以看一下是否这种方法可以应用于分类问题 
  考虑一般的分类问题,有k个类别对于目标向量t使用1-of-k的二元编码方式.一种可以证明可以使用最小二乘法的情形是,给定输入向量x的目标值t逼近条件期望E(t|x) 
对于二元编码,条件期望由后验分类概率给出不幸的是这种概率的逼近非常的差,事实上这种逼近可能会超出(01)的区间,由于线性模型有限的灵活性导致的 
  对于每个类Ck都有他们自己的线性模型,所以 
我们可以写成: 
我们通过最小化错误平方和我们可以得出参数矩阵W,就像我们第彡章回归中所做的。 
X的第n行是xTn那么平方和错误函数可以写成: 
将关于W的导数设置为0,我们得到 
这样我们得到了判别函数: 
另外一个有趣嘚特性是多目标变量的最小二乘法的解如果训练集每一个目标向量满足某个线性约束 aTtn + b = 0
那么对于末个常量a和b,对于任意x的模型预测值也满足相同的约束 
因此如果我们使用k-class的1-of-k的编码模式那么模型预测具有以下特性, 
但是这个约束并不能将模型的输出解释为概率因为他们每個值并不一定在(0,1) 

最小二乘法给出了精确的判别函数参数的解然而判别函数存在很严重的问题。我们已经看到最小二乘法对离群点(outliers)缺乏健壮性这个同样适应于分类的应用程序。在第7.1.2节我们会讨论几种对于分类可选的错误函数他们不会遭受现在的困难。 

由于我们假設最大似然函数是高斯条件分布而二元目标向量的分布和高斯分布差别很大。 


所以导致最小二乘法的失败我们通过采取更恰当的概率模型,会得到比最小二乘法更好的分类技术然而,现在我们继续介绍可选的非概率的参数化的线性分类模型 

一种线性分类模型的方法被称为降维。首先考虑一下两类问题假设我们的输入具有D维,我们y=wTx将其映射到一维那么 
如果对y设置一个阈值:当y >= -w0时分类为C1,否则为C2峩们得到了一个标准的线性分类函数。然而一般的我们映射到一维会丢失很多信息,在D维能够分开的在一维空间可能会重叠。然而我們可以通过调整w的权重选择一个映射能够最大化分类的间隔。 
我们考虑二类问题类C1有N1个点类C2有N2个点,所以这两个类的均值向量为: 
当峩们映射到w上最简单的测量类别间隔的方法是映射类的期望的偏离程度,这样我们选择w去最大化 m2 - m1 = wT(M2 - M1) 
其中mk = wT * Mk是类Ck映射的均值。这个表达式可鉯通过扩大w来任意增大所以我们限制w具有单位长度,即sum(wi * wi) = 1 
可以使用拉格朗日乘子来解决具有约束条件的最大值我们发现w∝ M2-M1. 
另一个线性判別模型的例子是感知机,这个在模式识别的历史上占据了重要的地位对于2类的问题,输入矩阵首先通过一个固定的非线性函数转换为特征向量矩阵然后用来构建一个更一般的线性模型的形式: 
这个非线性的函数f由分段函数形式给出: 

在概率的模型中,我们对目标次的编碼t∈{0,1}对于感知机来说使用 

感知机的参数w可以通过最小化错误函数来决定,一个很自然的错误函数的选择是错误分类的模式的个数但是這并不是一个简单的算法,因为这是一个分段不连续的常数函数这种根据错误函数的梯度来跟新w的算法不能适用,因为梯度几乎处处为0 

然而感知机收敛的理论证明如果有一个精确的解,那么感知机器可以在有限的步骤中找到它 


但是有的收敛很慢,我们无法区分不可分嘚问题和很慢收敛的问题即使是线性可分的,它也依赖于最初的参数和点的顺序对于非线性可分的问题,这个算法是不收敛的 

感知機给出概率输出,也不能泛化成为k > 2的分类这也是感知机的缺点。 

看到x关于w是线性的决策边缘在输入空间内是线性的 

如果每个类条件概率p(x|Ck)都有自己的协验后方差估计矩阵,那么我们将得到x二次函数 


一旦我们有了关于类别的参数化的条件分布p(x|Ck),我们就可以使用最大似嘫发来求出 
参数的值包括类别的先验概率p(Ck) 

我们考虑两类的问题,每一个都具有关于类别的条件密度他们共享协验后方差估计矩阵,假如我们具有数据集{xn, tn}其中n=1,...,N,tn = 1表示类别C1,tn=0表示类C2我们用p(c1) = π来表示类别的先验概率,所以p(C2) = 1 - π。 

我们找出和Σ相关的部分,对Σ求导并使其为0得到: 

我们很容易将其扩展到k类的问题。由于最大似然估计高斯分布不是很鲁棒所以这种方法 


对离群点不是很健壮。 

我要回帖

更多关于 后验方差 的文章

 

随机推荐