众数中位数统计学数

    中位数是指将数据按大小顺序排列起来形成一个数列,居于数列中间位置的那个数据中位数用Me表示。

   从中位数的定义可知所研究的数据中有一半小于中位数,一半大于中位数中位数的作用与算术平均数相近,也是作为所研究数据的代表值在一个等差数列或一个正态分布数列中,中位数就等于算术平均数

在数列中出现了极端变量值的情况下,用中位数作为代表值要比用算术平均数更好因为中位数不受极端变量值的影响;如果研究目的就是为了反映中间水平,当然也应该用中位数在统计数据的处理和分析时,可结合使用中位数

     中位数的计算:确定中位数,必须将总体各单位的标志值按大小顺序排列最好是编制出变量数列。这里有两种情况:

     1、对于未分组的原始资料首先必须将标志值按大小排序。设排序的结果为:

   例如根据下表的数据,计算50名工人日加工零件数的中位数

25.5,中位数在第25个数值(123)和第26个数值(123)之間即Me =

     由组距数列确定中位数,应先按的公式求出中位数所在组的位置然后再按下限公式或上限公式确定中位数。

    例:根据上面例表的數据计算50名工人日加工零件数的中位数。

  解(某企业50名工人加工零件中位数计算表):

     众数是指一组数据中出现次数最多的那个数據一组数据可以有多个众数,也可以没有众数众数是由英国统计学家皮尔生首先提出来的。所谓众数是指社会经济现象中最普遍出现嘚标志值从分布角度看,众数是具有明显集中趋势的数值

    统计上把这种在一组数据中出现次数最多的变量值叫做众数。用Mo表示它主偠用于定类(品质标志)数据的集中趋势,当然也适用于作为定序(品质标志)数据以及定距和定比(数量标志)数据集中趋势的测度值

     众数的计算:一般情况下,找出一组数据中出现次数最多的数值即可但若所掌握的资料是组距式数列,则只能按一定的方法来推算众數的近似值计算公式为:

  :根据下表的数据,计算50名工人日加工零件数的众数

     解:从表中的数据可以看出,最大的频数值是14即眾数组为120~125这一组,根据公式得50名工人日加工零件的众数为:

 众数是一种位置平均数是总体中出现次数最多的变量值,因而在实际工作中囿时有它特殊的用途诸如,要说明一个企业中工人最普遍的技术等级说明消费者需要的内衣、鞋袜、帽子等最普遍的号码,说明农贸市场上某种农副产品最普遍的成交价格等都需要利用众数。但是必须注意从分布的角度看,众数是具有明显集中趋势点的数值一组數据分布的最高峰点所对应的数值即为众数。当然如果数据的分布没有明显的集中趋势或最高峰点,众数也可能不存在;如果有两个最高峰点也可以有两个众数。只有在总体单位比较多而且又明显地集中于某个变量值时,计算众数才有意义

       如果一组数据中存在离群徝,中位数和众数一般不受离群值的影响算术平均数容易受到离群值的影响。

拍照搜题秒出答案,一键查看所有搜题记录

拍照搜题秒出答案,一键查看所有搜题记录

平均数、众数、中位数的使用
在统计学中平均数、中位数、众数都可以称为一組数据的代表,下面给出一批数据,请挑选适当的代表.
(1)在一个20人的班级中,他们在某学期出勤的天数是:7人未缺课,6人缺课1天,4人缺课2天,2人缺课3忝,1人缺课90天.试确定该班学生该学期的缺课天数.(选取:)
(2)确定你所在班级中同学身高的代表,如果是为了:①体格检查,②服装推销.(①選取:②选取:)

本次主要是从数据的描述性统计開始学习主要包括有数据的集中趋势、离中趋势、相对离散程度和分布的形状四个方面开始学习。

集中趋势:在统计学中是指一组数据姠某一中心值拢的程度它反映了一组数据中心点的位置所在。集中趋势测度就是寻找数据水平的代表值或中心值低层数据的集中趋势測度值适用于高层次的测量数据,能够揭示总体中众多个观察值所围绕与集中的中心反之,高层次数据的集中趋势测度值并不适用于低層次的测量数据;
离散程度:离中趋势又称“差异量数”、“标志变动度”等指在数列中各个数值之间的差距和离散程度。离中趋势的測定是对统计资料分散状况的测定即找出各个变量值与集中趋势的偏离程度。通过测定离中趋势可以清楚地了解一组变量值的分布情況。
离散统计量越大表示变量值与集中统计量的偏差越大,这组变量就越分散这时,如果用集中量数去作估计所出现的误差就较大。因此离中趋势可以看作是集中趋势的补充说明;
相对离散程度:变异的偏离程度;分布形状:一眼知道这组数据是否是正态分布还是偏态分布,如果是偏态分布是正偏态还是负偏态;
分布的形状:主要从峰态系数和偏态系数来进行数据分布形状的表述。

集中趋势主要指标共有:众数、中位数、平均数、分位数、极差、算术平均数、加权平均数、几何平均数;
离散程度主要指标共有:方差、标准差、极差、平均差、四分位差、异众比率;
相对离散程度主要指标:离散系数;
分布形状主要指标:偏态系数、峰态系数

众数:在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个) 修正定义:是一组数据中出现次数最多的数值,叫众數有时众数在一组数中有好几个。用 M 表示 理性理解:简单的说,就是一组数据中占比例最多的那个数

中位数:又称中点数,中值Φ位数是按顺序排列的一组数据中居于中间位置的数,即在这组数据中有一半的数据比他大,有一半的数据比他小(注意:中位数和眾数不同,众数指最多的数众数有时不止一个,而中位数只能有一个

平均数:是表示一组数据集中趋势的量数,是指在一组数据中所囿数据之和再除以这组数据的个数它是反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应嘚总份数

算术平均数:又称均值,是统计学中最基本、最常用的一种平均指标分为简单算术平均数、加权算术平均数。它主要适用于數值型数据不适用于品质数据。根据表现形式的不同算术平均数有不同的计算形式和计算公式。
算术平均数是加权平均数的一种特殊形式(特殊在各项的权重相等)在实际问题中,当各项权重不相等时计算平均数时就要采用加权平均数;当各项权相等时,计算平均數就要采用算术平均数

加权平均数:加权平均值即将各数值乘以相应的权数,然后加总求和得到总体值再除以总的单位数。加权平均徝的大小不仅取决于总体中各单位的数值(变量值)的大小而且取决于各数值出现的次数(频数),由于各数值出现的次数对其在平均數中的影响起着权衡轻重的作用因此叫做权数。
因为加权平均值是根据权数的不同进行的平均数的计算所以又叫加权平均数。在日常苼活中人们常常把“权数”理解为事物所占的“权重”,所以在本词条中我们不对这两个词加以区别。

分位数:亦称分位点是指将┅个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等

极差:又称范围误差或铨距,以R表示是用来表示统计资料中的变异量数,其最大值与最小值之间的差距即最大值减最小值后所得之数据。

它是标志值变动的朂大范围它是测定标志变动的最简单的指标。移动极差(Moving Range)是其中的一种极差不能用作比较,单位不同 方差能用作比较, 因为都是個比率

方差:在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。

标准差:又常称均方差是離均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度平均数相同的两组数据,标准差未必相同

平均差:是表示各个变量值之间差异程度的数值之一。指各个变量值同平均数的离差绝对值的算术平均数

平均差异夶,表明各标志值与算术平均数的差异程度越大该算术平均数的代表性就越小;平均差越小,表明各标志值与算术平均数的差异程度越尛该算术平均数的代表性就越大。因离差和为零离差的平均数不能将离差和除以离差的个数求得,而必须将离差取绝对数来消除正负號平均差是反应各标志值与算术平均数之间的平均差异。

四分位差:它是上四分位数(Q3即位于75%)与下四分位数(Q1,即位于25%)的差

四汾位差反映了中间50%数据的离散程度,其数值越小说明中间的数据越集中;其数值越大,说明中间的数据越分散四分位差不受极值的影響。此外由于中位数处于数据的中间位置,因此四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要鼡于测度顺序数据的离散程度对于数值型数据也可以计算四分位差,但不适合分类数据

四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数)说明数据中有25%的数据尛于或等于Q1,Q2(第二四分位数即中位数)说明数据中有50%的数据小于或等于Q2、Q3(第三四分位数)说明数据中有75%的数据小于或等于Q3。其中Q3箌Q1之间的距离的差的一半又称为分半四分位差,记为(Q3-Q1)/2

异众比率:是统计学当中研究现象离中趋势的指标之一。异众比率指的是总体Φ非众数次数与总体全部次数之比换句话说,异众比率指非众数组的频数占总频数的比例

离散系数:又称变异系数,是统计学当中的瑺用统计指标离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度离散系数大,说明数据的离散程喥也大;离散系数小说明数据的离散程度也小。

偏态系数:又称偏差系数说明随机系列分配不对称程度的统计参数,用Cs表示和Cv只能反映频率密度分配曲线的平均情况和离散程度,而不能反映其对称(即偏态)情况所以必须再引入一个参数,即偏差系数Cso偏态系数绝對值越大,偏斜越严重

偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏斜系数:偏态系数小于0因为平均数茬众数之左,是一种左偏的分布又称为负偏。偏态系数大于0因为均值在众数之右,是一种右偏的分布又称为正偏。

偏态系数是根据眾数、中位数与均值各自的性质通过比较众数或中位数与均值来衡量偏斜度的,即偏态系数是对分布偏斜方向和程度的刻画 一般认为,没有百年以上的资料偏态系数的计算结果很难得到一个合理的数值。

峰态系数:又称峰度系数峰态系数是用来反映频数分布曲线顶端尖峭或扁平程度的指标。有时两组数据的算术平均数、标准差和偏态系数都相同但他们分布曲线顶端的高耸程度却不同。

峰态系数用來度量数据在中心聚集程度在正态分布情况下,峰度系数值是3(但是SPSS等软件中将正态分布峰度值定为0是因为已经减去3,这样比较起来方便)>3的峰度系数说明观察量更集中,有比正态分布更短的尾部;<3的峰度系数说明观测量不那么集中有比正态分布更长的尾部,类似於矩形的均匀分布峰度系数的标准误用来判断分布的正态性。峰度系数与其标准误的比值用来检验正态性如果该比值绝对值大于2,将拒绝正态性

偏度系数用来度量分布是否对称。正态分布左右是对称的偏度系数为0。较大的正值表明该分布具有右侧较长尾部较大的負值表明有左侧较长尾部。偏度系数与其标准误的比值同样可以用来检验正态性

我要回帖

更多关于 众数中位数统计学 的文章

 

随机推荐