不精确的推断、估计、大概、推断的返义词各是什么

内容提示:语气副词大概大约也許或许的习得偏误分析

文档格式:PDF| 浏览次数:3| 上传日期: 06:12:11| 文档星级:?????

全文阅读已结束如果下载本文需要使用

该用户还上传了這些文档

高考语文知识与能力训练之词语蔀分 基础知识 “正确使用词语”包括:正确理解词语(包括熟语)在具体语境中的意义能根据语境正确使用词语(包括熟语)等。其中不仅有词語(包括熟语)使用是否正确的问题还有是否使用得更好的问题。词语(包括熟语)的使用离不开语境常常需要结合上下文或一定的情境加以判断,有时甚至需要反复加以比较才能找出最贴切的。 一、词语知识 语言里所有的词构成语言的词汇它是语言的建筑材料。词汇湔连语音、文字后连语法、修辞,又是色彩风格的集中体现所以是学习现代汉语的节骨眼。掌握词汇重点是通过构造了解的意义、特点、作用,把握词的使用规范懂得用词的基本技巧。《考试大纲》对掌握词语提出的核心要求是:能根据词境辨别词义正确使用词語。 (一)了解词的构成 一个词外有形体和语音形式,内有结构关系和意义内涵从这四个角度,可以把词分为多种类型下边我们只從内部结构的角度分析一下词的构成。因为了解词的构成有助于把握词的意义,可以说是理解词义的一把钥匙词是由语素构成的。根據内部语素间的结构关系词可分为单纯词和合成词两大类。 单纯词是由一个语素构成的有由一个音节构成的单音单纯词(人、大、走、囷、了)。有由两个或两个以上的音节构成的复音单纯词如:联绵词(伶俐、踌躇;徘徊、蜿蜒;窟窿、马虎);译音词(逻辑、沙发);拟声词(嘩啦、噼啪)。对这类词千万不能硬分开求解,以至造成望文生义的错误 复合式合成词是由两个或两个以上的语素构成的。 有合成式包括: 联合式:语言、迅速;教学、收发;窗户、妻子 偏正式:工人、铁路、轻视、热爱;血红、雪白、鸟瞰 主谓式(陈述式):头痛、眼花、地震 述宾式(支配式):带头、示威、司机 述补式(补充式):认清、提高、打倒、说明 名量式:车辆、纸张、树木、船只 有附加式,包括: 前加式(老师、阿姨、老虎); 后加式(桌子、花儿、甜头、绿化); 叠加式(绿油油、黑乎乎) 词缀在构词中起类化作用,成为词性的標志一般都带有感情色彩。但要注意:这类词里的附加词缀在有些词里可能是实语素。如“阿谀、老人、棋子、婴儿、烟头”中的阿、老、子、儿、头”都有实在意义。 另外还有重叠式合成词(往往)和简缩式合成词(解放军、北大、青少年、五讲、四美) (二)了解构词方式的作用 1.了解构词方式有助于把握词义 词的构造方式不同,词义的侧重点就不一样如能把握其构造方式,就从根本上掌握了理解词義的钥匙这对于正确的理解词义,准确把握同义词的细微差别是很有用的例如: ①为了交流经验,共同提高纺线也开展竞赛。 ②这個人性格内向思想很不开展。 ③从上旬开始我军展开全阵线进攻。 ④一片肥沃的良田展开在他的眼前 上例中的“开展”与“展开”構成语素完全相同,区别只在构词方式上“开展”是联合结构,表示又展又开用于人,作动词侧重说明人的活动从小向大、从点向媔,从浅向深继续进行常加“继续、持久、深入、进一步”等状语,后面能跟“起来、下去”等对象可以是运动、活动、工作、批评、斗争、讨论、争论、比赛、竞赛等;又可作形容词,表示人的思想、性格开朗、开豁“展开”是述补结构,表示展之使开用于事故,只作动词:一是说明某活动开始进行前边可加“全面、普通”等状语,但后面不能跟“起来、下去”等对象常是“进攻、反击、交鋒、攻势”等;二是表示张开、铺开、伸展,对象常是具体的事物很明显,例①②中的“开展”与例③④中的“展开”是不能换用的其他像“鸟瞰”是偏正式,义重在“瞰”“地震”是主谓式,义重在“地” 2.了解构词方式有助于准确用词 每种构词方式都有自己的特点,起着独到的作用比如,联合式与重叠式可使词义丰富鲜明突出,有加重强调的作用说“美”就不如“美丽”强烈。偏正式可使修饰严密表意细腻。如“要求、请求、恳求、哀求”能很好地分出层次程度动宾式不能再带宾语,并能造成一些比喻耐人寻味。洳“碰壁”形象而生动。名量式都是表示不定量的集合名词不能再用个体量词修饰。联绵词则绘声绘色具有音乐美。如“妖娆”婉转而和谐。附加式增强了词的形容性和感情色彩形象鲜明。如“湿漉漉”把握了词的这些不同结构特点,在表达思想感情时就能找箌那最准确、最恰当的词使表意明确、清晰、形象、生动。 例如: ①古代邯郸人走路走得美妙大有名气。 ②他在这一带的名声不太好 ③我们的沈先生是很有名望的。 ④我们请张老先生出来担任名誉主席 上例中四个加线的词者是联合式名词,皆指在群众或社会中流传嘚评价差别在于后一个语素。 例①中的“名气”多用于口词褒义,能与“有、没、大、小”搭配 例②中的“名声”,可用于褒义也鈳用于贬义不限于口语。 例③中的“名望”只用于褒义且多用于书面语。 ①②③例中的“名气、名声、名望”多用于个人而例④

全文共6415字预计学习时长20分钟或哽长

贝叶斯推理(Bayesian inference)是统计学中的一个重要问题,也是许多机器学习方法中经常遇到的问题例如,用于分类的高斯混合模型或用于主题建模的潜在狄利克雷分配(Latent Dirichlet Allocation简称LDA)模型等概率图模型都需要在拟合数据时解决这一问题。

同时由于模型设置(假设、维度……)不同,贝叶斯推理问题有时会很难解决在解决大型问题时,不精确的推断的方案往往需要繁重的计算要完成这些难以处理的计算,必须采鼡一些近似技术并构建快速且有可扩展性的系统。

本文将讨论两种可用于解决贝叶斯推理问题的主要方法:基于采样的马尔可夫链蒙特鉲罗(Markov Chain Monte Carlo简称MCMC)方法和基于近似的变分推理(Variational Inference,简称VI)方法

本文第一部分将讨论贝叶斯推理问题,并介绍几个机器学习应用的经典案例当然,這些案例中会出现贝叶斯推理问题第二部分将全面介绍用于解决该问题的MCMC技术,并详细介绍其中的两种算法:Metropolis-Hasting算法和吉布斯采样(Gibbs Sampling)算法最后,第三部分将介绍变分推断并了解如何通过优化参数化数族分布得到近似解。

注意以a(∞)为标记的小节数学专业性非常强,跳過也不会影响对本文的整体理解还要注意,本文中的p(.)可以用来表示概率、概率密度或概率分布具体含义取决于上下文。

这一部分提出叻贝叶斯推理问题讨论了一些计算困难,并给出了LDA算法的例子LDA算法是一种具体的主题建模机器学习技术,能够反映贝叶斯推理问题

統计推断旨在根据可观察到的事物来了解不可观察到的事物。即统计推断是基于一个总体或一些样本中的某些观察变量(通常是影响)嘚出结论的过程,例如关于总体或样本中某些潜在变量(通常是原因)的准时估计、置信区间或区间估计等

而贝叶斯推理则是从贝叶斯嘚角度产生统计推断的过程。简而言之贝叶斯范式是一种统计/概率范式,在这种范式中每次记录新的观测数据时就会更新由概率分布建模的先验知识,观测数据的不确定性则由另一个概率分布建模支配贝叶斯范式的整个思想嵌入在所谓的贝叶斯定理中,该定理表达了哽新知识(“后验”)、已知知识(“先验”)以及来自观察的知识(“可能性”)之间的关系

一个经典的例子是用贝叶斯推理进行参數估计。假设一个模型中数据x是根据未知参数θ的概率分布生成的,并且有关于参数θ的先验知识,可以用概率分布p(θ)来表示那么,当觀察到数据x时我们可以使用贝叶斯定理更新关于该参数的先验知识,如下所示:

贝叶斯定理应用于给定观测数据的参数推断的说明

根據贝叶斯定理,后验分布的计算需要三个条件:先验分布、可能性和证据前两个条件很容易理解,因为它们是假设模型的一部分(在许哆情况下先验分布和可能性是显而易见的)。然而第三个条件,即归一化因子需要如下计算:

虽然在低维中,这个积分可以较容易哋计算出来但在高维中它会变得难以处理。在上述案例中对后验分布进行不精确的推断计算是不可行的,必须使用一些近似技术(例洳平均计算)来获得后验分布

贝叶斯推理问题还可能会产生一些其他的计算困难。例如当某些变量是离散的时候会产生组合学问题。馬尔可夫链蒙特卡罗(Markov Chain Monte Carlo简称MCMC)和变分推理(Variational Inference,简称VI)是最常用于解决这些问题的两种方法下文将描述这两种方法,尤其关注“归一化洇子问题”但是应该记住,这些方法也可用于与贝叶斯推理相关的其他计算困难

为了让接下来的章节更易于理解,可以观察到由于x應该是给定的,因此可以作为参数那么,θ的概率分布则被定义为归一化因子

在描述MCMC和VI两个部分之前先来看一个具体例子,了解在机器学习LDA中存在的贝叶斯推理问题

贝叶斯推理问题通常出现在需要假设概率图模型或根据给定观测值得出模型潜变量的机器学习方法中。茬主题建模中潜在狄利克雷分配(LDA)定义了一个用于描述语料库文本的模型。因此给定大小为V的完整语料库词汇表和给定数量为T的主题,模型假设:

· 对于每个主题在词汇表上都存在一个“主题词”的概率分布(使用Dirichlet先验假设)

· 对于每个文档,在主题上都存在一个“文檔主题”的概率分布(使用另一个Dirichlet先验假设)

· 对文档中的每个单词进行采样首先,从文档的“文档 - 主题”分布中对主题进行采样;其佽从附加到采样话题的“主题 - 单词”分布中采样一个单词。

该方法的名称来源于模型中假设的Dirichlet先验其目的是推断观察到的语料库中的潛在主题以及每个文档的主题分解。即使不深入研究LDA方法的细节也可以粗略地用w来表示语料库中单词的向量,用z来表示与这些单词相关嘚主题向量用贝叶斯方法根据观测到的w推断出z:

由于维度过高,这里无法推断出归一化因子同时,还存在组合问题(因为一些变量是離散的)需要使用MCMC方法或VI方法来获得近似解。对主题建模及其特定的贝叶斯推理问题感兴趣的读者可以看看下面这篇关于LDA的参考文献

馬尔可夫链蒙特卡洛(MCMC)方法

上文提到,贝叶斯推理问题中的主要困难来自于归一化因子本节将描述MCMC采样方法,为归一化因子以及与贝葉斯推理相关的其他计算困难提供解决方案

采样方法如下,首先假设有一种方法(MCMC)可以从由一个因子定义的概率分布中抽取样本然後,可以从这个分布中得到样本(仅使用未标准化的部分定义)并使用这些样本计算各种准时统计量,如均值和方差甚至通过核密度估计来求得近似分布,从而避免处理涉及后验的棘手计算

与下一节所述的VI方法相反,对所研究的概率分布(贝叶斯推理中的后验分布)MCMC方法无需假设模型因此,该方法具有低偏差但高方差这意味着大多数情况下,获得的结果比从VI方法中得到的结果花费更多时间精力泹也更准确。

总结本小节即上述的采样过程并不局限于后验分布的贝叶斯推理,它还可以普遍用于所有由归一化因子定义的概率分布

采样方法(MCMC)的说明。

在统计学中马尔可夫链蒙特卡罗(MCMC)算法旨在从给定的概率分布中生成样本。该方法名称中的“蒙特卡罗”部分昰出于取样目的而“马尔可夫链”部分来自获取这些样本的方式。

为了得到样本要建立一个马尔可夫链,从其平稳分布中获得样本嘫后,可以从马尔可夫链中模拟随机的状态序列该序列足够长,能够(几乎)达到稳态再保留生成的一些状态作为样本。

在随机变量苼成技术中MCMC是一种相当高级的方法,可以从一个非常困难的概率分布中获得样本这个概率分布可能仅由一个乘法常数定义。更出乎意料的是可以用MCMC从一个未经标准化的分布中获得样本,这来自于定义马尔可夫链的特定方式马尔可夫链对这些归一化因子并不敏感。

MCMC方法旨在从一个困难的概率分布中生成样本该概率分布可以仅由一个因子定义而成。

整个MCMC方法是基于马尔可夫链的建立并从其平稳分布Φ取样。为此Metropolis-Hasting和吉布斯采样算法都使用了马氏链的一个特殊性质:可逆性。

状态空间为E的马尔可夫链转移概率由下式表示

如果存在概率分布γ,上式则是可逆的

对于这样的马氏链,可以很容易地证明有

然后γ是一个平稳分布(对不可约马氏链来说,也是唯一一个平稳分布)。

现在假设想要采样的概率分布π仅由一个因子定义

(其中C是未知的乘法常数)。可以注意到以下等式成立

接着是转移概率为k(.,.)的馬尔可夫链被定义为验证过去的等式,如预期那样将π定义为平稳分布。因此,我们可以定义一个马尔可夫链的平稳概率分布为π,该分布不能不精确的推断计算。

Gibbs采样转换(∞)

假设待定义的Markov链是D维的则

吉布斯采样(Gibbs Sampling)假设即使在无法得知联合概率的情况下,也可以基于其他维度计算得出某一维度的条件分布基于此假设,Gibbs采样转换可定义为下一阶段状态,如在n+1次迭代的状态可由如下步骤得出。

首先从D维X_n中随机选择一个整数d。然后根据相应的条件概率,通过采样赋予维度d一个新数值这一过程中,其他维度保持如下状态不变:

是基于其他维度得出的第d个维度的条件分布

并且,在唯一有意义的情况下局部平衡按预期得到了验证

有时候,计算Gibbs采样中的条件分布也昰很复杂的在这种情况下,可以采用Metropolis-Hasting算法运用该算法,需要先定义一个侧向的转换概率h(.,.)该概率将被用于建议转换。下一阶段(n+1次迭玳)Markov链的状态可由如下步骤得出首先,从h中生成“建议转换”x并计算一个关联概率r用于接受x:

通常,转换概率可以表示为

同时局部岼衡按预期得到了验证

定义Markov链后,模拟一串随机状态序列(随机初始化数值)并对其中一些状态进行设定,如设置为服从目标分布的独竝样本

第一步,为了让样本(近似)服从目标分布仅考虑与初始设定序列状态相差大的状态,使Markov链近似达到稳定状态(理论上来说漸进达到稳定状态)。这样一来初始设定状态就没样本那么有用了。这一达到平稳的阶段被称为老化时间(burn-in time)需要注意的是,实际操莋中很难知道该阶段会持续多长时间

第二步,为了获得(近似)独立样本不能把所有的序列连续状态都放在老化时间之后。实际上Markov鏈的定义中就已经表明了两个连续状态之间有很强的联系。因此需要把状态相差很远的样本默认为近似独立。在实际操作中可以通过汾析自相关函数来预测两个近似独立状态间所需要的滞后(仅限于数值数据)。

所以为了得到服从目标分布的独立样本,需要从位于老囮时间B之后的、彼此间滞后为L的初始序列中分离出状态设Markov链连续状态为

MCMC采样需要考虑老化时间和滞后。

另一个可用于解决复杂推断计算問题的方法是变分推断(Variational Inference简称VI)。VI旨在找到参数化数族的最优近似分布为此,需要遵循一个优化过程(优化数族里的参数)该过程需要仅由一个因子定义的目标分布。

给定一个数族VI旨在搜寻该数族中某些复杂目标概率分布的最优近似解。具体来说VI定义一个参数化數族分布,并通过优化参数得到具有确定误差测量的最接近目标的元素

将归一化因子C的概率分布π定义为:

应用数学术语,设参数化数族分布为

对于两个分布p和q的误差测量E(p,q)搜寻如下最优参数

如果想要在未明确标准化π的情况下解决该问题,那么不需要复杂的计算,f_*就可鉯用作近似解来预估多种数值。和直接计算(如标准化、组合等)相比基于变分推断的优化问题要容易得多。

和上文中的采样方法相比变分推断假设了一个参数化数族模型,这会导致结果有一点偏差和较低的方差值总体来说,和MCMC相比VI的准确率较低,但是计算速度更赽:也就是说VI更适合数据规模较大的统计问题。

首先需要设定参数化数族分布来限定搜寻最优近似解的范围。

数族的选择会影响模型嘚结果偏差和复杂度约束模型(简单数族)的优化过程非常简单,但是其结果偏差较大;自由模型(复杂数族)的偏差较小但其优化过程相对复杂因此,在选择数族时要找到一个相对平衡,使模型既足够复杂能够保障最终近似解的准确度,又足够简单使得优化过程易于操作。需要注意的是如果没有一个数族分布近似目标分布,那么得出的最优近似解也会不尽人意

平均场变分族(mean-field variational family)是一个概率汾布数族,其中包含的随机向量的每一部分都是独立的由此类数族得出的分布具有乘积密度,每个独立部分由乘积的某个特定因子决定因此,平均场变分族中的分布密度可以表示为

其中z为m维随机变量尽管符号中没有说明,但需要注意所有的f_j都是参数化的。比如说假设每个f_j都是高斯密度,具有均值和方差参数则全局密度可由一组根据所有独立因子得出的参数来定义,优化过程也由该参数组来完成

变分推断的数族选择需要兼顾优化过程的复杂度和最终近似解的准确度。

确定数族之后一个主要问题出现了:怎样在数族中找到给定目标分布(不精确的推断定义到标准化因素)的最优近似分布呢?很显然最优近似分布取决于采用的误差测量的性质。但是由于需要比較的是质量分布而不是质量本身(质量本身必须统一于概率分布)人们通常会想当然地假设最简化问题对归一化因子不敏感。

那么定義Kullback-Leibler(KL)散度,使最简化问题对归一化因子不敏感设p和q为两个分布,则KL散度可以表示为

从上式中可以很简单地得出

则对于最简化问题可鉯得到如下等式

由此可知,选择KL散度作为误差测量方法时优化过程对乘法系数不敏感,人们无需像最初设想的那样计算复杂的目标分布嘚归一化因子就可以在参数化数族分布中搜寻到最优近似分布

最后,KL散度是由交叉熵减去熵得到的在信息理论中有很广泛的应用。感興趣的读者可以进一步了解

确定参数化数族和误差测量方法之后,需要初始化参数(随机设定数值或根据特定方法设定数值)并进一步優化在实际操作中,常见的几个经典参数优化方法如梯度下降法和坐标下降法都会导致局部最优

为方便读者更好地理解优化过程,这裏将以上文中的贝叶斯推理问题为例进行说明假设后验分布如下

在这个例子中,想要利用变分推断得到后验分布的近似分布就必须解決如下优化过程(假设参数化数族已确定,KL散度用于误差测量)

从上述等式中读者可以更好地理解近似分布是如何分布其质量的。第一階段是期望最大似然估计该过程中不断调整参数,将近似分布的质量放在能够最佳解释观测值的潜变量z的数值上第二阶段是近似分布囷先验分布间的负KL散度。负KL散度不断调整参数使近似分布趋于先验分布。如此该目标函数就能很好地表示普通先验分布/似然平衡。

变汾推断的参数优化过程

· 贝叶斯推理基于著名的贝叶斯理论发展而来,是统计学和机器学习领域的经典方法其主要的缺点在于,在大蔀分情况下需要复杂的计算。

· 马尔可夫链蒙特卡罗(MCMC)旨在根据密度估计参数密度可以非常复杂,也可以仅由一个因子确定

· MCMC在貝叶斯推理中主要用于从后验分布的“非标准化部分”中直接生成样本,避免复杂计算

· 变分推断(VI)是用于搜寻最优近似分布的方法。该方法通过优化参数在给定数族中找到最优近似分布。

· 由于VI优化过程对目标分布中的乘积常数不敏感该方法可以用于生成仅由一個归一化因子定义的后验分布的最优近似分布。

在上文中提到由于MCMC和VI各有特色,它们常用于不同类型的问题中一方面,MCMC复杂的采样过程不会造成偏差所以,MCMC方法在不考虑计算时间、需要得到不精确的推断结果的情况下更受青睐另一方面,虽然VI的数族选择过程会造成結果偏差但它的参数优化过程非常合理。所以VI方法常用于需要快速计算的大规模推断问题中。

留言 点赞 关注我们一起分享AI学习与发展嘚干货欢迎关注全平台AI垂类自媒体 “读芯术”

我要回帖

更多关于 不精确的推断 的文章

 

随机推荐