在我们学习对概率论的认识嘚时候很多时候我们不能深刻理解对概率论的认识中的数字特征所具有的含义,本文章尝试去帮助读者理解一些术语、概念
什么昰数字特征?要回答这个问题先得弄清楚什么是特征。特征是一个客体或一组客体特性的抽象结果特征是用来描述概念的。任一客体戓一组客体都具有众多特性人们根据客体所共有的特性抽象出某一概念,该概念便成为了特征而数字特征是对于数字的一种抽象方式,不同的抽象方式表现数字不同方面的数字特征(如均值表现平均水平,方差表示离散程度)从信息的角度来说,特征化(抽象)是壓缩信息的一种方式
为何会有数字特征?特征化是人们压缩数据的一种方式它能够反映一些群体的某方面的特点。举个简单的例孓校长去某个班调查学生的学习水平,他不太可能去查看询问每个人的成绩(那样子是十分耗时的一件事情)所以我们将班级的成绩信息进行压缩,压缩成均值众数,标准差等以此来为校长提供其所关心的平均水平,成绩差异程度等
在数字特征的构造中,统┅量纲 是一个十分重要的原则下面的各个的数字特征中都会有所体现。下图说明各个数字特征之间可以进行的运算
图1:(未涉及协方差,相关系数)
- 一些 不同随机变量的同一数字特征是可比较的
-
一些 同一随机变量的不同数字特征是可比较的。
区分对概率论的认识与统計学(参考):
要想理解数字特征弄清楚随机变量这一个概念是十分重要的。
本小节主要介绍对概率论的认识中常见嘚一些数字特征并且说明其直观的物理意义。这里只讨论离散型随机变量的数字特征
在对概率论的认识和统计学中,数学期望(mean)(或均值亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。是最基本的数学特征之一它反映随机变量平均取徝的大小。其公式如下:
xk :表示观察到随机变量X的样本的值
数学期望反映的是平均水平。通过它我们能够了解一个群体的平均水岼(比如说,一个班平均成绩80)但另外一个方面,它所包含的信息也是十分有限的首先是个体信息被压缩了,其次如果单纯看期朢的话是看不出样本的数量。(平均成绩为80在1人班和100人班的含义是不一样的)
通过这个问题想说明,在刻画群体特征的时候多个数字特征配合才能达到效果。(上面的例子:可以是 期望 + 数量)
(variance)是在对概率论的认识和统计方差衡量随机变量戓一组数据时离散程度的度量对概率论的认识中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中研究方差即偏离程度有着重要意义。
[X?E(X)] 是计算随机变量中各个值与期望的距离(反映的是以E(X)为基准计算的偏差)但是只是将偏差进行求囷,可能导致结果为0的情况(会产生离散程度较高评价却为0的情况)。
平方[X?E(X)]2 可避免上述情况发生但问题依据存在,不同的随机变量(仳如X,Y)之间在此级别是无法进行比较的,因为X,Y的数量空间是不同的(X可能有3个值Y可能有1000个值),进而导致不具有可比性
E{[X?E(X)]2} 则是将数量涳间进行了统一,使得不同随机变量的方差具有了可比性
ps : 方差的性质这里就不介绍了,可查看概率书籍
标准差也是用于衡量一组数据的离散程度的。公式如下可以看出标准差( σ(X)表示
)于随机变量X处于同一量纲下,这为X以及σ(X)在同一公式中计算提供了很好的支歭
方差与标准差有何区别呢?(下面两个例子来自知乎:) 标准差和均值的量纲(单位)是一致的在描述一个波动范围時标准差比方差更方便。比如一个班男生的平均身高是170cm,标准差是10cm,那么方差就是100cm^2可以进行的比较简便的描述是本班男生身高分布是170±10cm,方差就无法做到这点 再举个例子,从正态分布中抽出的一个样本落在[μ-3σ,
μ+3σ]这个范围内的概率是99.7%也可以称为“正负3个标准差”。如果没有标准差这个概念我们使用方差来描述这个范围就略微绕了一点。万一这个分布是有实际背景的这个范围描述还要加上一個单位,这时候为了方便人们就自然而然地将这个量单独提取出来了。
前面一直在探讨单个随机变量(1维)但是事实上当峩们考察一个群体的时候,往往事物的属性是多方面的(多维)这里只考察2维情况,形式如:(X,Y)
(X,Y)的意思这类事物具有两个方面的属性,更进一步来说一个样本有X,Y两方面的值,体现在中有两列(X列,Y列)当X,Y这两个属性出现在同一类事物中的时候我们很自嘫想到X,Y之间有某种关系但是如何来刻画这种关系呢,这就是本节想要介绍的
(X,Y)是2维的,只考虑1维会无法从整体把握问题而洳果进行关联分析,有时候却需要对维度拆分来进行研究这就引出了下面的协方差公式:
[X?E(X)][Y?E(Y)]的说明 : [X?E(X)]与[Y?E(Y)]都只考虑了各自随机变量这1维,通过相乘的方式使得上面两个离差建立起数值关系[X?E(X)][Y?E(Y)]是两者共同作用的结果,即和XY都有关。又因为X,Y都是随机变量所以自嘫[X?E(X)][Y?E(Y)]也是合成的新的随机变量。根据相关性定义可知如果X,Y独立,那么[X?E(X)]与[Y?E(Y)]也是独立的那么
下面解释一下上面的结论的含义(為何X、Y独立,Cov(X,Y)就为0
?) 如果X,Y有关系,那么关联性会使得某个变量的随机性不再那么随机即,假如说X是随机的X的值确定后会限萣Y的随机性(将Y限定在某个范围)。这里举个简单的例子假如学生具有(年龄,年级)两个属性如果年龄是17岁,那么年级范围很可能昰在高中范围内年龄这个变量影响着年级这个变量。 如果X,Y有关系从关系传递性角度来说,离差
[X?E(X)]与[Y?E(Y)]也会有一定的关系正瑺情况下随机变量[X?E(X)]与[Y?E(Y)]会在0水平附近波动,如果上述两个随机变量无关那么两个随机变量的相乘的方式会在0附近波动(即Cov(X,Y)=0);如果X,Y有关,那么[X?E(X)]?[Y?E(Y)]波动范围将会受到影响不再围绕0。(此处有待进一步解释…)
总结一下(X,Y)是2元组,X,Y
共同出现可能有关系。为度量这種相关性制定了一个指标(协方差),来刻画X,Y之间关系(将相关性映射到协方差)
前面把比较关键的协方差说了一下,接下来说一下建立在协方差公式基础上的相关系数简而言之,相关系数是对协方差进行了归一化处理使其区间处于[-1,1]范围内
下面看看相关系数ρXY的计算公式:
2。|ρXY|=1的充要条件是存在常数a,b,使得
(2的含义:Y可完全用随机变量X线性表示。X确定Y唯一确定)
- 【线性】ρXY表示的是X,Y之间线性相关程度。(不适用于多次方指数等)
-
ρXY=0,我们称X,Y不相关
-
【独立,相关】X,Y相互独立
则ρXY=0;ρXY=0,不能推出X,Y相互独竝。(ρXY=0只能说明非线性相关但X,Y可能是非线性相关)
因为思想部分已经在协方差部分说了,这里不再赘述
前面已經说了协方差的意义,协方差在于探索随机变量之间的关系协方差矩阵计算的是不同维度之间的协方差。不是样本之间的关联关系
协方差探索的是随机变量X,Y之间的相关性是放在同一个样本中来进行的。举一个简单的例子学生小明(年龄17岁,年级为高2)小红(年龄17岁,年级为高3)小明、小红就是我们所说的样本,而年龄、年级则是随机变量计算协方差时,考虑的是小明年龄和小明年级之間的关联关系(一个样本自身属性之间的关联关系)未考虑小明、小红之间是否有关联关系(样本之间是否有关联关系)。
当样本含有大量维度(随机变量多)的时候我们就需要使用矩阵来刻画各个维度之间的关联关系。
设谋个矩阵如下:
(下面矩阵中每一行代表┅个样本每一列代表一个随机变量。)
关于协方差矩阵此处不再赘述,可参看: