狄克逊检验临界值表准则的临界值表D(α,n)是固定的吗

立刻注册计量论坛 交流工作中的點滴

您需要 才可以下载或查看没有帐号?

杂志社退稿正好拿来给大家看,因为得不到需要的反馈放这里也许有人有更好的办法,所鉯欢迎批评指正这文的主要目的是如何“看到”狄克逊检验临界值表公式中那几个统计量是什么,因为要背的话狄克逊检验临界值表公式一堆下标太麻烦了。


其实退稿正常这东西不值一提,我也是野人献曝只不过对死活记不住公式的人有点用。
从狄克逊检验临界值表准则中统计量公式几何表示分析其构成元素下标的意义
在计量工作中狄克逊检验临界值表(Dixon)准则(以下简称准则)是用于统计判别離群值的常用方法之一,被《GB/T 数据的统计处理和解释正态样本离群值的判断和处理》所采用的根据重复观测的次数不同,其统计量有四種不同的公式计算得出四个公式的大体形式相似,只有式中每个元素的下标不同如果不明白狄克逊检验临界值表准则的基本思想,只昰靠死记硬背极容易会混淆。本文将对狄克逊检验临界值表准则统计量公式其构成的基本思想进行阐述以此为依据用一维坐标的方式鉯几何化的直观表示,分析准则的统计公式的构成和每个元素所代表意义以便使其更容易理解和记忆。
value)又称作“粗大”,是指对一個被测量重复观测所获得的若干测量结果中与其他值偏离较远且不符合统计规律的个别值。其存在会歪曲测量结果必须进行剔除。如果引发异常值的情况不属于已知原因仅仅是对某个偏离其他值较大的值进行怀疑,则要按照一定的统计准则进行否则一旦靠主观误判剔除了仅仅反应较大波动的测量结果,会得到虚假的分散性常见的统计准则有拉依达准则、狄克逊检验临界值表准则和格拉布斯准则。洏狄克逊检验临界值表准则适用于观测次数在3到50次以内的多个异常值的情况[1]
狄克逊检验临界值表准则的使用方法是:将重复观测所得的徝按照从小到大的顺序排列为:x1,x2...,xn其中n为重复观测的次数,而xn为最大值x1为最小值。按照以下几种情况计算统计量γij或γ’ij:
将以仩的γ10γ’10;…;…;γ22,γ’22分别化简为γijγ’ij。设D(α,n)为狄克逊检验临界值表检验的临界值当γij>γ’ij,γij >D(α,n)时xn为異常值;当γij<γ’ij,γij >D(α,n)时则x1为异常值,否则没有异常值这里可以看到,四种情况的四个公式非常类似区别只是构成公式的烸一元素的下标不同,单纯依靠机械记忆的话非常容易混淆,所以只有理解了统计量计算公式构成的基本思想才能够有效的记忆这四個公式。
狄克逊检验临界值表准则在本质上来说是一种用极差比双侧检验来判别离群值的方法[2]所以要搞清楚准则中统计量计算公式中每個元素的下标意义是什么,可以通过分析下标反映的是极差在一维坐标上长的大小度以及其所代表哪一侧的比值来获得。
为了抽象和简囮我们假设每两个相邻值之间的差值是等值的。且为了直观显示我们假设n=10。因为x1到x10(xn)是从小到大的顺序排列所以视其为依次落在一个┅维横向坐标上的点。如下图1中所示:

图 1 观测值的一维坐标表示


所谓的极差是指一系列数值中最大值与最小值之差,当这一系列数值按照顺序排列时极差在一维坐标上反映出来的是一段长度。例如选取x4、x5、x6三个数值作其极差则极差值为x6-x4,反映在坐标轴上是x4到x6之间线段的長度,如图2所示

图 2 极差在一维坐标上的表示


按照这个思想,我们把γ10所表示的长度用一维坐标表示后如图3所示:

图 3 γ10的一维坐标表示


γ10僦是如图所示右侧的极值与整个极值的比值同理,我们把所有的γij和γ’ij的也用一维坐标表示则如下图4所示:

图 4 准则公式中所有γij或γ’ij值的一维坐标表示


从图4中可以看出,准则中每种情况的公式不过是反映两侧不同侧的极值比只不过γij是右侧较大值一端的比值,而γ’ij是左侧较小值一端极值的比值
有了公式整体的直观表示以后,我们再观察其下标的意义其中γ10的分子部分为xn-xn-1,下标的第一个数字1表礻xn和xn-1之间的长度;而下标的第二个数字0表示整个长度(xn-x1)与分母所代表的长度(xn-x1)差值为0。其他的统计量同理可得
假设我们把γ的下标的第一个数字称之为所含长度,代表要比较的那侧的部分极差,而把γ下标的第二个数字称之为整体余下长度,代表所要比较的那侧整体减去下标第②位值后的极差那么所有的公式的格式就可以统一抽象为:部分所含长度/剩余总体长度。
所以如果要记忆准则的公式,可以概括为:先看右侧(γij)再看左侧(γ’ij)部分所含除以总体剩余。
举例:γ’22的公式是对左侧端(或者说小值端)的计算其包含长度为2,所鉯分子为x3-x1;总体长度为减去2个项后的剩余故分母为xn-2-x1。
样本的观测值是离散的但是几何表示的话,这些离散值不过是落在一维坐标上的┅些点本文为了直观表示准则的统计公式中每个元素的下标的意义,只是理想的假设这些值是等差的其实现实情况下,这些值一般为非等差的但是并不影响下标所反映的一维坐标中次序的关系。通过对几何表示的直观观察更易理解“克逊准则在本质上来说是一种用極差比双侧检验来判别离群值的方法”这句话所体现的基本思想,也更易记忆狄克逊检验临界值表准则统计量的计算公式
[1] 叶德培.一级基礎知识及专业实务[M]第三版.北京:中国质检出版社,2013.
[2] 熊艳艳吴先球.粗大误差四种判别准则的比较和应用[J].大学物理实验,2010第23(1):66-68

测量过程是对一个无限大总体的抽样:对固定条件下的一种测量理论上可以无限次测量下去,可以得到无穷多的测量数据这些测量数据构成一个容量为无限大的总体;或者换一个角度看,本来就存在一个包含无穷多测量数据的总体实际的测量只不过是从该无限大总体中随机抽取一个容量为n(例如n=10)的樣本。这种样本也可以有无数个每个样本相当于总体所含测量数据的不同随机组合。样本中的正常值应当来自该总体通常的目的是用樣本的统计量来估计总体参量。总体一般假设为正态分布

你对这个回答的评价是?

测量过程是对一个无限大总体的抽样:对固定条件下的一种测量理论上可以无限次测量下去,可以得到无穷多的测量数据这些测量数据构成一个容量为无限大的总体;或者换一个角度看,本来就存在一个包含无穷多测量数据的总体实际的测量只不过是从该无限大总体中随机抽取一个容量为n(例如n=10)的樣本。这种样本也可以有无数个每个样本相当于总体所含测量数据的不同随机组合。样本中的正常值应当来自该总体通常的目的是用樣本的统计量来估计总体参量。总体一般假设为正态分布

你对这个回答的评价是?

我要回帖

更多关于 狄克逊检验临界值表 的文章

 

随机推荐