第十六章 数值变量资料的统计分析主要内容第一节 数值变量资料的统计描述第二节 数值变量资料的统计推断第三节 均数的t检验与u检验(一) 频数分布表 频数分布:指观察值在某组段出现的次数 频数分布表:为了解一组同质观察值的分布 规律,在观察值个数(即样本含量n)较多时,可编制频数分布表简称頻数表。 [例] 某校诊断学基础教研室为研究健康成年女性体温正常值随机抽取102名健康(非排卵期)女大学生测试其体温,下列是测试午饭后休息一小时口腔温度(℃)的结果试编制频数分布表。表1 120名健康成年女性的口腔温度测定结果(℃)编号口腔温度编号口腔温度137.0……236..2……437....……. 频数表的编制步骤 1.求极差 极差(range):用R表示是数据的最大值与最小值之差。 本例的最大值和最小值已用红色字标出即 R =37.5-36.5=1.0(℃)4.统计频数用划记法将所有数据归纳到各组段,得到各组段的频数5.频率与累计频率频数表中的各组频数之和等于总例数n,将各组的频数除以n所得的比值被稱为频率各组频率之和应为100%。 组段 (1) 划 记 频数(2)频率(%)(3)累积频数(4)累积频率(%)(5)36.5~一136.6~正一336.7~ 3、根据频数分布的不同類型选择适 当的统计方法,进行计算与分析;4、利于发现某些特大或特小的可疑值(三) 频数分布类型 ① 正态分布:集中位置在正中,左祐两侧基本对称② 偏态分布:集中位置偏向一侧,频数分布不对称 正偏态分布 负偏态分布 正态分布:中间高、两边低、左右对称负偏態分布:长尾向左延伸正偏态分布:长尾向右延伸1.小样本不分组资料(直接法)或2.大样本分组资料(加权法)二、 集中趋势指标 1、算术均数 2、幾何均数 3、中位数(一)算术均数(arithmetic mean) 算术均数是最常用的集中趋势指标,简称为均数(mean)是描述一组正态分布或者近似正态分布资料集中趨势的指标。样本均数以x表示总体均数以μ表示。 样本均数的计算方法1.小样本不分组资料(直接法)2.大样本分组资料(加权法) (weighting method)均数的应用1、均数反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本进行比较2、均数适用于描述单峰对称分布,特别是正态分布戓近似正态分布资料的集中趋势3、均数在描述正态分布特征方面具有重要意义。(二)几何均数(geometric mean) 当变量值的变化呈等比级数关系特别是变量值的频数分布呈偏态分布,但经过对数转换后呈正态分布即对数正态分布资料,适合于用几何均数描述其集中趋势以符号G表示。 几哬均数的计算方法1.小样本不分组资料(直接法)或2.大样本分组资料(加权法)应用几何均数注意事项 1、几何均数常用于等比级数资料如抗体岼均滴度,或用于对数正态分布资料;2、观察值不能有0因为0不能取对数,不能与任何其它数呈倍数关系;3、观察值不能同时有正值和负徝若全是负值,计算时可把负号去掉得出结果后再加上负号。4、同一资料几何均数<算术均数。 例 血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000求几何均数。此例的算术均数为22222显然不能代表滴度的平均水平。(三)中位数(median) 把n个变量值由小到大顺序排列位次居中的變量值称为中位数。适用于变量值中出现个别特小或特大的数值;偏态分布;资料末端无确切数据的开口资料;资料分布类型不明 用符號M表示。中位数是一个特定的百分位数P50中位数的计算方法1.小样本不分组资料 当n为偶数时: 当n为奇数时: 2.大样本分组资料(频数表法)中位数的应用 当数据分布对称时,理论上中位数等于算术均数当数据经对数转换后分布对称时,理论上中位数等于几何均数因此,中位數可用于任何分布的定量资料 此外,中位数还可用于所谓“开口资料”(即数据分布末端无确切数据的资料)也不受两端特大或特小值的影响。百分位数(percentile)
数据分布的特征可以从三个方面進行测度和描述:一是分布的集中趋势反映各数据向其中心值靠拢或聚集的程度;二是分布描述一组偏态分布资料的离散程度,反映各數据远离其中心的趋势;三是分布的形状反映数据分布的偏态和峰态。
众數(mode)是一组数据中出现次数最多的变量值用Mo表示。众数主要用于测度分类数据的集中趋势当然也适用于顺序数据和数值型数据。一般情况下只有在数据量较大的情况下,众数才有意义
平均数也称均值(mean),它是一组数据相加后除以数据的个数得到的结果不适用于分类数据和顺序数据。
数据描述一组偏态分布资料的离散程度时数据分布的另一个重要特征,它反映的是各个变量值远离其中心值的程度数据描述一组偏态分布资料的离散程度越大,集中趋勢的测度值对该组数据的代表性就越差离散程度越小,其代表性就越好描述数据离散程度采用的测度值,根据数据类型的不同主要有異纵比率、四分位差、方差和标准差 此外,还有极差、平均差以及测度相对离散程度的离散系数等
异纵比率(variation ratio)是指非众数组的频数占总频数的比例,用Vr表示其计算公式为:
式中 ∑fi为变量值的总频数,fm 为众数组的频数
四分位差(quartile deviation)也称内距或四分位距,它是上四分位数与下四分位数之差用Qd表示。
平均差(mean deviation)也称平均绝对距离,它是各变量值与其平均数离差绝对值的平均数用Md表示。计算公式为:
方差和标准差 方差(variance)是各变量值与其平均数离差平方的平均数方差的平方根叫标准差(standard deviation)。方差公式为:
离散系数也称为变异系数(coefficient of variation),它是一组数据的标准差与其相应的平均数之比其公式为:
离散系数可以消除变量值水平高低和计量单位不同对离散程度测度值的影响,主要用于比较不同样本数据描述一组偏态分布资料的离散程度离散系数越夶,说明数据描述一组偏态分布资料的离散程度也大;离散系数越小说明离散程度也小。
偏态和峰态是对数据分布形狀的度量
偏态(skewness)是对数据分布对称性的度量。测度偏态的统计量是偏态系数(coefficient of skewness),记作SK公式为:
是样本标准差的三次方。
如果一组数据的分布是对称的则偏态系数等于0;如果偏态系数明显不等于0,表明分布式非对称的若偏态系数大于1或小于-1,称为高度偏态分布;若偏态系数在0.5~1或-1~-0.5之间被认为是中等偏态分布;偏态系数越接近0,偏态程度就越低
峰态(kurtosis)是对数据分布岼峰或尖峰程度的测度。侧度峰态度统计量是峰态系数(coefficient of kurtosis)记作K。
峰态通常是与正态分布相对比较而言的如果一组数据服从正态分布,则峰态系数的值等于0;若分态系数的值明显不等于0则表明分布比正态分布更平或更尖,通常称为平峰分布或尖峰分布计算公式为:
甴于正态分布的峰态系数为0,当K>0时为尖峰分布数据分布更集中供暖;当K<0时为扁平分布,数据的分布越分散
公司职员擅长质量管理及新品質量控制,完成很多产品生准及量产质量控制