第2章 描述统计学1:表格法和图形法
2.1 汇总分类变量的数据
频数分布是一种数据的表格汇总表示在几个互不重叠组别中的每一组项目的个数(即频数)
【对数据集进行基础嘚分类汇总】
2.1.2 相对频数分布和百分数频数分布
组的相对频数=组的频数/n,组的百分数频数=相对频数*100
2.1.3 条形图和饼型图
条形图bar chart,用图形方法描述已汇总的分类型数据的频数分布,相对频数分布和百分数频数分布
横轴表示对数据类别的标记。纵轴表示频数相对频数和百分数頻数。然后用一个固定宽度的长条绘制每一组类别对于分类型数据,应该将长条分开强调每一组都是独立的事实。
饼型图pie chart,另一种描述分类型数据的相对频数分布和百分数频数分布的方法
2.2 数量型数据汇总
数量型数据也可以用频数分布来表示每一组项目的个数。重点茬于如何定义组别
对于数量型数据,确定频数分布的组时步骤为:
组数,建议使用5-20组数据较少,5-6组即可如果数据更多,需要较多嘚组
分组的目的是用足够多的组表示变异性。
组宽 近似组宽=(数据最大值-数据最小值)/组数
组限 下组限为分到该组的最小可能的数据值上组限为分到该组的最大可能数据值。
【数量型数据也可以用频数分布进行分组和分类型数据每类数据自成一组不一样。频数分布的汾组根据是数据值】
直方图是一种数量型数据的图形描述方式由先前已汇总出的频数分布,相对频数分布和百分数频数分布可绘制直方圖
把组放在横轴,把频数相对频数或百分数频数放在纵轴,就可以绘制直方图每组的组宽为底,频数为高
与条形图不同,直方图楿邻的长方形没有间隔
直方图最重要的作用是提供了分布形态的信息。
2.3 用表格方式汇总两个变量的数据
交叉分组表是一种汇总两个变量數据的方法两个变量可以都是分类型变量,或者数量型变量最常见的是一个是分类型变量,另一个是数量型变量对数量型变量进行汾组,可以将数量型变量看成一个分类型变量
从交叉分组表的边栏得到的相对频数分布和百分数频数分布,可以提供每一个变量单独的信息但他们不能提供变量间关系的信息。交叉分组表的意义在于提供了变量间关系的含义交叉分组表广泛的应用于考察两个变量之间嘚关系。
2.4 用图形显示方式汇总两个变量的数据
2.4.1 散点图和趋势线
散点图scatter diagram,是对两个数量变量间关系的图形描述
趋势线,trendline是显示相关性菦似程度的一条直线。
2.4.2 复合条形图和结构条形图
复合条形图side by side bar chart,是对已汇总的多个条形图同时显示的一种图形显示方式
结构条形图,stacked chart昰同时显示和比较两个变量的另一种显示方式。
结构条形图每一个长条被分解成不同颜色的矩形段显示每一组的相对频数。
2.5.1 创建有效的圖形显示
- 保持图形简洁能用二维图形,就不要用三维图形
- 每个坐标轴有清楚的标记,并给出测量的单位
- 如果用颜色区分类别,每个顏色要是不同的
- 如果使用图例,图例要靠近数据
2.5.2 选择图形显示的类型
用于展示数据分布的图形显示:
条形图 用于展示分类型数据的频數分布和相对频数分布
饼型图 用于展示分类型数据的相对频数分布和百分数频数分布
直方图 用于展示数值型数据在一个区间组上的频数分咘
用于进行比较的图形显示:
复合条形图 用于两个变量的比较
结构条形图 用于比较两个分类变量的相对频数和百分数频数
用于展示相关关系的图形显示:
散点图 用于展示两个数量变量的相关关系
趋势线 用于近似散点图中数据的相关关系