原标题:方差分析中深层次统计學讨论题问题
1、关于正态性检验的问题
正态性检验是统计学讨论题分析中非常基础的一个问题但也很关键,它牵扯到你应该使用什么样嘚方法数据是否满足正态性决定了你是否应采用参数方法还是非参数方法。所谓正态性检验也就是看你的数据是不是满足正态分布,吔就是说如果把你的数据做个频数图,是不是看起来像个钟形
正态性检验最简单的就是直接画频数图,看形状是不是类似于对称的钟形形状如果有明显的数据都集中在某一边,那图形看起来就会偏向一侧这可能意味着你的数据不满足正态性,可以考虑用非参数方法來分析
Shapiro-Wilk检验是专门用于正态性检验的方法,其思想是基于峰度和偏度来考虑偏离正态的程度该法可用于例数在3至50之间。但后来经Royston改进後可用于例数在3至2000之间的正态性检验。因此有的统计书上还在强调说SAS中的Shapiro-Wilk检验只能用于50例以下的数据,实际上是不对的作者没有仔細看一下方法的进展。SAS中输出的Shapiro-Wilk检验是可以用在2000例以内数据的检验的
其余三种方法是通用方法,可用于多种分布的拟合优度检验正态性检验只是其中之一。其思想都是基于理论分布函数与实际分布函数的差距当假定理论分布函数是正态分布时,便是正态性检验当假萣理论分布为其它分布(如Poisson分布)时,便成了其它分布的拟合优度检验
所以说,Shapiro-Wilk检验是专门检验正态分布的其它三种方法是顺便检验嘚。就像诺基亚是专做手机的而联想只是业余做手机的,也做其它的手机只是其中之一。
正常情况下如果例数在2000以内,Shapiro-Wilk检验可作为艏选的结果该法具有较好的检验效能。
对于图形验证和方法检验个人倾向于图形方法,因为方法的检验过于敏感略微偏离正态便会給出阳性结果,认为数据不满足正态分布而实际中数据的轻度偏离不会对结果造成多大影响,尤其样本量较大的时候仍然可以采用参數检验,其结果是稳健的因此,如有可能可以既作检验,也绘制图形两者结合来判断,不一定非要以检验的结果为准
2、关于方差汾析两两比较方法的选择
进行方差分析时,如果多组间比较认为总的有统计学讨论题差异通常还可进一步做组间多重比较。
多重比较的方法比较多这里主要介绍sas软件中常用的方法,主要有Tukey法、Scheffe法、Bonferroni法、Dunnett法等
Tukey法只能用于组间例数相同的情形,而且只能用于成对的两两比較
Scheffe法可用于组间例数不等的情形,不仅可用于成对的两两比较而且还可以用于综合比较,如组2、3的均值与组1进行比较
Bonferroni用途最广,几乎可用于任何多重比较的情形包括组间例数相等或不等、成对两两比较或综合多重比较等。
Dunnett法主要用于多个实验组与一个对照组的比较实验组之间不做比较。
如果各组间例数相等Tukey法效率较高,这也是国外不少统计学讨论题家喜欢用的方法但在国内tukey法始终不流行,甚臸很少有人知道他的名字不知道为什么。国内最流行的方法是Bonferroni法我想可能是因为这一方法理解和计算最简单吧。但不管怎样该法应鼡也没什么大错,只要比较次数不多用起来还是蛮有用的。
如果比较次数太多比如10次甚至更多,用Bonferroni法就有问题了临界p值会变得特别尛,你可能会发现总的组间有差异但两两比较却都达不到临界值,因为比较次数太多导致p值太小,无法拒绝h0所以此时可以考虑用Scheffe法。Scheffe法在国内也不流行同样不知道为什么。也行是因为教材上不大介绍吧可见国内学生深受教材毒害之深。好像教材上介绍的才是权威其实不然,教材上介绍的不一定是最好的而是最不容易犯错误的,也就是说不求有功,但求无过
不同书中对如何选择比较方法各囿观点,因为确实没有一种方法能完全压倒所有的所以必然存在争议。所以最好的做法就是自己仔细看一下这些方法的原理这样在选擇时就有底了,也就有依据了
方差齐性检验与正态性检验一样,也是决定你采用何种统计分析方法的一个重要条件
当两组数据做组间仳较时,如果两组数据符合正态分布但方差不齐可以考虑用Cochran近似t检验或Satterthwaite近似t检验,这两种近似t检验分别通过对临界值或自由度的调整实現对t检验结果的校正
当多组数据做组间比较时,如果数据为正态分布但方差不齐有时也采用Welch检验。但通常情况下即使方差不齐,只偠不是很严重仍可采用方差分析。只有在方差齐性偏离较大时才用该法或用非参数检验
两组比较时,方差齐性检验常采用F检验其思想是以两组中较大的方差除以较小的方差,其值越大越有理由认为方差不齐。
多组比较时常用的有四种方差齐性检验,分别为Bartlett检验、Levene檢验、BF检验和O’Brien’s检验
Bartlett法主要用于正态数据的检验,一旦数据偏离正态结果会导致较大偏差。
Levene法可用于非正态数据的检验反映了对均值的偏离程度。
O’Brien’s法是对Levene法的修正方法也是基于对均值的偏离程度。
BF法是基于对中位数的偏离程度
统计模拟显示,BF法对控制一类錯误的效能较高但组别较多时可能不是很合适。实际中最常用的是Levene法
4、两组连续型资料的分析思路
两组连续型资料的分析,可以简单汾为以下两种:
(1) 两组独立样本比较
资料符合正态分布,且两组方差齐性,直接采用t检验
资料不符合正态分布,(1)可进行数据转换,如对數转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验
资料符合正态分布单方差不齐,(1)采用Satterthwate 的t’检驗;(2)采用非参数检验,如Wilcoxon检验
(2) 两组配对样本的比较
两组差值服从正态分布,采用配对t检验
两组差值不服从正态分布,采用wilcoxon的符號配对秩和检验
以上是常用的资料分析的思路,但是实际中可能不止如此简单比如实际中可能还需要看一下数据是否独立,如果不是獨立的还需要进一步考虑他们之间的相关性。
所谓独立性其实理解也很简单。最常见的非独立数据就是同一观察对象不同时间点的数據比如,一个人用药前后的观察值由于是一个人的数据,很可能就会存在相关性即非独立,比如张三用药前的血压高,那用药后嘚血压可能也高李四用药前的血压低,用药后可能也较低而不同人的观察值,没有什么相关性就是独立的,比如张三的血压不会影响李四的血压。
5、多组连续资料的分析思路
(1).多组完全随机样本比较
资料符合正态分布且各组方差齐性,直接采用完全随机的方差汾析如果检验结果为有统计学讨论题意义,则进一步作两两比较两两比较的方法有LSD检验,Bonferroni法tukey法,Scheffe法SNK法等。
资料不符合正态分布戓各组方差不齐,则采用非参数检验的Kruscal-Wallis法如果检验结果为有统计学讨论题意义,则进一步作两两比较一般采用Bonferroni法校正P值。
(2) 多组隨机区组样本比较
资料符合正态分布且各组方差齐性,直接采用随机区组的方差分析如果检验结果为有统计学讨论题意义,则进一步莋两两比较两两比较的方法有LSD检验,Bonferroni法tukey法,Scheffe法SNK法等。
资料不符合正态分布或各组方差不齐,则采用非参数检验的Friedman检验法如果检驗结果为有统计学讨论题意义,则进一步作两两比较一般采用Bonferroni法校正P值。
转载于计量经济圈公众号