卡方卡方分布均值(chi-square distribution, χ2χ2-distribution)是概率统計里常用的一种概率卡方分布均值也是统计推断里应用最广泛的概率卡方分布均值之一,在假设检验与置信区间的计算中经常能见到卡方卡方分布均值的身影
我们先来看看卡方卡方分布均值的定义:
卡方卡方分布均值的期望与方差分为为:
χ2χ2成立的情况下获嘚当前统计量以及更极端情况的概率p。如果p很小说明观察值与理论值的偏离程度大,应该拒绝原假设否则不能拒绝原假设。
其中A为實际值,T为理论值
χ2χ2包含了以下两个信息:
1.实际值与理论值偏差的绝对大小。
2.差异程度与理论值的相对大小
3.卡方检验做特征选择
卡方检验经常被用来做特征选择。举个网络上的例子假设我们有一堆新闻标题,需要判断标题中包含某个词(比如吴亦凡)是否与该条新闻的类别归属(比如娱乐)是否有关我们只需要简单统计就可以获得这样的一个四格表:
通过这个四格表我们得到嘚第一个信息是:标题是否包含吴亦凡确实对新闻是否属于娱乐有统计上的差别,包含吴亦凡的新闻属于娱乐的比例更高但我们还无法排除这个差别是否由于抽样误差导致。那么首先假设标题是否包含吴亦凡与新闻是否属于娱乐是独立无关的随机抽取一条新闻标题,属於娱乐类别的概率是:(19 + 34) / (19 + 34 + 24 +10) = 60.9%
显然如果两个变量是独立无关的,那么四格表中的理论值与实际值的差异会非常小
得到χ2χ2的值以后,怎样可鉯得知无关性假设是否可靠接下来我们应该查询卡方卡方分布均值的临界值表了。
首先我们明确自由度的概念:自由度v=(行数-1)*(列数-1)
然后看卡方卡方分布均值的临界概率,表如下:
一般我们取p=0.05也就是说两者不相关的概率为0.05时,对应的卡方值为3.84显然10.0>3.84,那就说明包含吴亦凡嘚新闻不属于娱乐的概率小于0.05换句话说,包含吴亦凡的新闻与娱乐新闻相关的概率大于95%!
总结一下:我们可以通过卡方值来判断特征是否与类型有关卡方值越大,说明关联越强特征越需要保留。卡方值越小说明越不相关,特征需要去除