MATLAB中如何得到matlab 线性回归归分析后回归系数的标准误SE

线性回归分析_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
文档贡献者贡献于
评价文档:
70页免费30页免费42页免费35页免费62页免费 23页免费33页免费59页免费41页免费
喜欢此文档的还喜欢70页免费
线性回归分析|
把文档贴到Blog、BBS或个人站等:
普通尺寸(450*500pix)
较大尺寸(630*500pix)
大小:549.00KB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢多元线性回归分析 直线回归概念复习 例:为了研究 3 岁至 8 岁男孩身高与年龄的规律,在某地区在 3 岁至 8 岁男孩中随机抽样,共分 6 个年龄层抽样:3 岁,4 岁,…,8 岁,每个层抽 10 个男孩,共抽 60 个男孩。资料如下: 60 个男孩的身高资料如下年龄 3岁 92.5 97.0 96.0 96.5 97.0 92.0 96.5 91.0 96.0 99.0 95
.4 4岁 96.5 101.0 105.5 102.0 105.0 99.5 102.0 100.0 106.5 100.0 101.8 5岁 106.0 104.0 107.0 109.5 111.0 107.5 107.0 111.5 103.0 109.0 107.6 6岁 115.5 115.5 111.5 110.0 114.5 112.5 116.5 110.0 114.5 110.0 113.1 7岁 125.5 117.5 118.0 117.0 122.0 119.0 119.0 125.5 120.5 122.0 120.6 8岁 121.5 128.5 124.0 125.5 122.5 123.5 120.5 123.0 124.0 126.5 124.0身 高平均身高图1某地男童身高与年龄的散点图从散点图上, 我们可以发现样本点(X,Y)随机地出现在一条直线附 近,并且从资料背景上考察, 同一年龄的儿童身高应近似服从一个正 态分布, 而儿童身高的总体均数应随着年龄增长而增大, 并由每个年 龄的身高样本均数与儿童年龄的散点图可以发现: 这些点非常接近一 条直线以及样本均数存在抽样误差, 因此推测儿童身高的总体均数与 年龄可能呈直线关系。 故假定身高 Y 在年龄 X 点上的总体均数 ?Y|X 与 X 呈直线关系。?y ? ? ? ? x其中 y 表示身高,x 表示年龄。由于身高的总体均数与年龄有关, 所以更准确地标记应为?y|x ? ? ? ? x表示在固定年龄情况下的身高总体均数。平 身 均 高 130 直 线12011010090 2 4 年 龄 6 8身高的样本均数与年龄的散点图故有理由认为身高的总体均数与年龄的关系可能是一条直线关系 上 述 公 式 称 为 直线 回 归 方 程。 其 中? 为 回 归 系数 ( regression coefficient) ,或称为斜率(slope) ;?称为常数项(constant) ,或称为 截距 (intercept) 回归系数?表示 x 变化一个单位 y 平均变化?个单位。 。 当 x 和 y 都是随机的, y 间呈正相关时?&0, y 间呈负相关时?&0, x、 x、 x、y 间独立时?=0。 一般情况而言,参数?和?是未知的。对于本例而言,不同民族和不 同地区,?和?往往是不同的,因此需要进行估计的。由于不同年龄 的身高实际观察值应在对应的身高总体均数附近(即:实际观察值与 总体均数之间仅存在个体变异的差异),故可以用年龄和实际身高观 察值的资料对未知参数?和?进行估计,一般采用最小二乘法进行参 数估计。我们将借助 Stata 软件对本例资料进行直线回归。 数据格式x 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 5 y 92.5 97.0 96.0 96.5 97.0 92.0 96.5 91.0 96.0 99.0 96.5 101.0 105.5 102.0 105.0 99.5 102.0 100.0 106.5 100.0 106.0 104.0 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 8107.0 109.5 111.0 107.5 107.0 111.5 103.0 109.0 115.5 115.5 111.5 110.0 114.5 112.5 116.5 110.0 114.5 110.0 125.5 117.5 118.0 117.0 122.0 119.0 119.0 125.5 120.5 122.0 121.5 128.5 124.0 125.5 122.5 123.5 120.5 123.0 124.0 126.5回归命令 regress y x Source | SS df MS -------------+-----------------------------Model |
Residual | 447. 7. -------------+-----------------------------Total |
59 109.240395Number of obs F( 1, 58) Prob & F R-squared Adj R-squared Root MSE= = = = = =60 777.41 0.6 0.6-----------------------------------------------------------------------------y | Coef. Std. Err. t P&|t| [95% Conf. Interval] -------------+---------------------------------------------------------------x | 5. 0.000 5..274577 _cons | 78.202 64.66 0.000 75.24 ------------------------------------------------------------------------------? 回归方程 y ? a ? bx ? 78.18476 ? 5.854286 xb=5.854286 , a= 78.18476 se(b)=0.2099654回归系数检验:H0:?=0 vs H 1:??0 回归系数统计量 t=b/se(b)= 5.%CI of ? 为 (5..)简述单因素线性回归方程 y=?+?x 在实际分析中要注意的问题 (a) 残差? i=yi-a-bxi,引入回归模型 yi=?+?xi+? i (b) ? i~N(0,?)且{? i}相互独立:说明有三个条件: i)? i 服从正态分布 ii){? i}相同的方差?2。 iii){? i}相互独立。 (c) 不满足上述 3 个条件时, 反映在实际回归分析时, 有如下情况: i)散点在直线一侧较多而且靠直线很近,当在直线的另一侧, 散点较少,而且离直线较远,反映在误差项?偏态分布。 ii)散点随着自变量 x 增大而离散程度增大或减小(喇叭口状), 反映了误差项?方差随着 x 变而变,即不满足相同方差(方差齐 性)。 iii)随着 xi 变化而? i 呈某种规律性的变化。反映?还含有 x 的信 息未利用到,还可以继续改进回归模型。..88,P值&0.001, 问题 1:在同一总体中随机抽取 2 个相同样本量的样本,每个样本 中都含有变量 x 和 y, 并以 y 为因变量和 x 为自变量, 作线性回归, 请问:两个样本作出的回归方程一样吗?它们之间什么关系? 问题 2:回归方程所示的直线与原始数据的关系是什么? 1) 不同,它们之间存在抽样误差 2) 回归分析统计背景: 对于固定自变量 x, y 所在的总体进行抽 对 样,得到在固定 x 情况下,y 的样本值,因此对于每个 xi,得到 对应的抽样值 yi。即:资料为:(x1,y1),(x2,y2),…,(xn,yn)。 因此对于同一个 x 值,y 所对应的总体均数 ?Y |X 相同,不同的 x 值, y 所对应的总体均数 ?Y |X 可能不同。 如果 y 的总体均数值 ?Y |X 与 x 的关系呈直线关系 ?Y |X ? ? ? ? x ,则样 本资料(x1,y1),(x2,y2),…,(xn,yn)呈带状直线散点图。 由于抽样资料 y=总体均数 ?Y |X +抽样误差? 因此如果 y 的总体均数值 ?Y |X 与 x 呈直线关系 ?Y |X ? ? ? ? x ,则抽样 资料 y ? ?Y |X ? ? ? ? ? ? x ? ? 当 ? ~ N (0,? 2 ) ,则对于固定 x, y ~ N (?Y |X ,? 2 ) ,而用样本资料(x1, ? y1),(x2,y2),…,(xn,yn)所估计得到的回归方程 y ? a ? bx 是固定 x 情况下,y 的总体均数与 x 的线性方程的表达式 ?Y |X ? ? ? ? x 。 即:b 是β 的样本估计值(无偏估计),a 是α 的样本估计值(无偏估 ? 计), y ? a ? bx 是 ?Y |X 的样本估计值。 抽样误差(估计值)=样本资料-(a+bx) (即: ? 的估计值:残差) 所以要求回归分析的资料,其残差服从正态分布,且与 x 无关、方 差齐性。 2)引入多元线性回归模型定义 (a) 例 3-1,研究女中学生的肺活量与体重和胸围的关系,随机抽 样了 10 名女中学生的体重 x1(kg),胸围 x2(cm)和肺活量 y(ml), 资料如表 3-1,试建立一个因变量为 y 对自变量 x1,x2 的线性回 归方程。 (b) 对于相同的体重 x1 和胸围 x2,考查女中学生的肺活量 y 总是 有一定的变异的,但总对应有一个总体均数?y|X,而且总体均数 ?y|X 可能与体重 x1 和胸围 x2 有关。x1 和 x2 与总体均数?y|X 最简单 的关系为线性关系: i)同样的 x1 和 x2,观察值 y 与总体均数?y 总有一定的随机误 差?,即 y-?y|X=?,因此 y ? ? y|X ? ? ? ?0 ? ?1x1 ? ?2 x2 ? ? ii)若?~N(0,?2 )分布且独立,而观察值 y ? ?0 ? ?1 x1 ? ?2 x2 ? ? , 则称肺活量 y、体重 x1 和胸围 x2 符合线性回归模型y ? ?0 ? ?1 x1 ? ? 2 x 2 ? ?(c) 对于一般的线性回归模型定义为: i)设有 p 个观察自变量 x1,x2,…,xp ,并用向量 X=( x1,x2,…,xp )’,因变量为 y,且记 y 的总体均数为 2 ? y ? ?0 ? ?1 x1 ? ?2 x2 ? ? ? ? p x p ,随机误差?~N(0,? )且独立, 则线性回归模型可以表示为 y ? ?0 ? ?1 x1 ? ?2 x2 ? ? ? ? p x p ? ? 对于观察值(y1,X1),(y2,X2),…,(yn,Xn),其中 Xi=(xi1,xi2,…, xip ),i=1,2,…,n。对应的线性回归模型为yi ? ?0 ? ?1 xi1 ? ?2 xi 2 ? ? ? ? p xip ? ? i? i ~ N (0, ? 2 ) 且独立。在本例中,作线性回归如下:(介绍一下数据结构). regress y x1 x2Source SS 回归平方和
残差平方和
df MS Number of obs = 10 F( 2, 7) = 6.75 = 0.0232Model2回归均方和
Prob & FResidual7Total9残差均方和 决定系数
R-squared = 0.6587 校正和决定系数 Adj R-squared = 0..444 Root MSE = 374.57总平方和 SS 总描述样本量为 n=10 的因变量 y 总的变异。 回归平方和 SSR 描述了样本量为 n 时,由自变量 x1 ,x2 变化而引起的因变量 y 的这部分变异,SSe 描述了样本量为 n 时,由随机 误差项?所引起的因变量 y 的一部分变异,因此: 总变异=自变量引起 y 的变异+随机误差?引起变异 对应:SS 总=SS 回归+SS 误差 由于 SS 总,SS 回归和 SS 误差均与样本量 n 有关,样本量 n 越大,对应变异就越大。所以取平 均变异指标:均方差 MSMS回归=y x1 x2SS 回归 df 回归, MS误差=SS 误差 df 误差t值 P值 95%可信区间回归系数回归系数标准误Coef. 113.68Std.Err. 38.28t 2.976 1.614P&|t| 0.021 0.151[95% Conf. Interval] 23.01 -21.89 _cons--2.4180.046-10970.1-121.5156? 回归方程 y ? -.9987x1 ? 45.48368 2 ? x 解释回归系数的意义 简述 SST 总=SSR 回归+SSE 残差, 自由度 df 回归=模型中的回归系数个数(不含常数项),df 残差=n-df 回归-1 SSE 回归 SSE 残差 , MSE= MSR= df 回归 df 残差模型的假设检验 H0 :?1 =?2 =0 vs ? 1 ,?2 不全为 0 MSR 当 H0 成立时, F ? ~F(df 回归,df 残差) MSE单个回归系数检验:H0 :?=0 vs H1 :??0 ? ? 当 H0 :?=0 成立时, t ? ? ~t(df残差 ) se (?)简述回归系数?的 95%CI 意义与 t 检验的对应关系。 (d) 假设检验一般情况叙述 (e) 决定系数 R 2=SSR SSE =1- SST SST(f) 复相关系数 R (g) H0 :?1=?2=…=?r=0 vs ?1,?2,…,? r 不全为 0。当 H0 成立时F??SSR(x , x12,?, x p ) ? SSR(x r ?1 , x r ?2 ,?, x p )?/ r MSE(x1 , x 2 ,?, x p )~ F(s, n ? p ? 1)?(x1 ,x2 ,…,xp )的估计及其误差? ? ? ? ?( x1 ,?, x p ) ? ?0 ? ?1 x1 ? ? ? ? p x p (STATA 命令:predict y1)? s(?( X 0 ))95%CI? (STA 命令:predict meansd,stdp)(因为 ? 0 , ?1, ,? p 有抽样误差) TA? ??? ? ? ? t 0.025,v s(?( X 0 )) ,自由度 v=n-1-p个体预测值和标准误? ? ? ? y ? ?0 ? ?1 x1 ? ? ? ? p x p (STATA 命令:predict y1)线性回归模型应用的条件总结理论上yi ? ?0 ? ?1 xi1 ? ?2 xi 2 ? ? ? ? p xip ? ? i? i ~ N (0, ? 2 ) 且独立。具体检查是否复合线性回归模型步骤 先做线性回归 计算残差? i 检查残差? i 是否服从正态分布(引起正态分布) 检查残差? i 的离散程度是否与其它自变量呈某种趋势关系。(要 求无任何趋势关系) 5. 检查残差? i 变化是否与其它自变量呈某种对应趋势关系。(要求 无任何趋势关系) 1. 2. 3. 4.多元线性回归常见的应用以及应用中的问题 ? 全回归模型(析因分析) ? 多重共线对分析的影响 VIFs (variance inflation factors) ? 对于自变量 p 个自变量 x1,x2,…,xp 中,以其中一个 xi 作为 因变量作回归以及其它 p-1 个变量为自变量,得到相应的决定 系数 Ri。定义 xi 的膨胀因子VIFi ?1 1 ? Ri2? VIFi=1 对应 Ri2 ? 0 说明 xi 与其它 p-1 个自变量无共线。 ? 当 1 ? Ri2 ? 0 对应 VIFi&1 ? 当 Ri2 ? 1 ,说明 xi 与其它 p-1 个自变量完全共线,对应 VIFi 成 为无穷大。 ? 通常认为在 p 个自变量 x1,x2,…,xp 中,最大的 VIF&10,则认 为严重共线,最小二乘估计受到较严重的影响。 ? 平均 VIF= i?1? VIFiP -1p&&1,则认为? 寻找影响因变量的主要因素。 ? 用回归进行两组或多组的均数比较并校正混杂因素的影响。 全回归分析举例 例:据儿童保健部门的考察,4 至 7 岁儿童的身高与年龄近似呈线性 关系,且男女身高也有差异。 下列收集了 50 名男孩和 50 名女孩的身 高,年龄均在 4 岁至 7 岁之间。请试建立回归方程描述年龄与身高的 关系(其中 sex=1 表示男,sex=0 表示女) sex 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1age 4.5 6.5 6.2 6.4 6.7 4.4 6.4 4.2 6.2 7.4 5 4.1 5.6 7.5 6 7.3 4.8 6.2 5 7.7 5.1 4.4 5.6 6.8 7.4 5.8 5.6 7.5 4.2 6.7 6.8 6.7 4.9 4.3 6.3 5.4 7.2 4.4 6.3 4.4 7.8 4.8 5y 90 111 107 107 114 88 109 86 107 122 95 85 100 121 106 120 93 105 94 125 96 88 101 113 121 105 102 122 84 113 115 114 93 86 108 99 116 87 109 89 125 92 95 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 04.6 7 5.4 5.5 7.8 6.3 7.1 4.3 7.2 5 5.8 4.5 4.9 4.1 4.6 5.1 6.5 7.5 5.9 4.9 7.7 7.5 7.4 4.7 6.5 6.9 6.1 4.3 5.5 4.1 7.2 5.6 6 5.4 5.1 5.6 4.7 7.9 4.7 5.1 4.9 6.4 4.3 6.290 117 99 102 127 110 119 87 114 95 100 90 91 86 90 94 109 116 104 94 118 116 117 91 107 112 105 89 99 85 113 101 104 98 95 101 90 120 90 95 94 108 88 107 0 0 0 0 0 0 0 0 0 0 0 0 06.8 5 4.8 5.9 6.4 4.7 7.4 6.8 5.4 5.4 5.1 7.3 7.8110 94 94 104 107 93 116 110 99 99 96 115 121考虑身高总体均数为 ? y ? ?0 ? ?1sex ? ?2age ? ?3sex ? age 模型为: y ? ?0 ? ?1sex ? ?2age ? ?3sex ? age ? ? 用拟合上述模型 gen sexage=sex*age regress y age sex sexage-----------------------------------------------------------------------------y | Coef. Std. Err. t P&|t| [95% Conf. Interval] -------------+---------------------------------------------------------------sex | -9...50 0.000 -11.7813 age | sexage | _cons | 9...94 . 10.24 62.24 0.000 0.000 0.000 8...298 2..54194? 回归方程为 y ? 48.97983 ? 9.513794sex ? 9.075835age ? 1.929241sex ? age则女孩为身高与年龄的回归方程为(sex=0)? y ? 48.97983 ? 9.075835ageage 的回归系数的意义为每年身高增长的速度则男孩为身高与年龄的回归方程为(sex=1) ? y ? (48.97983 ? 9.513794) ? (9.075835 ? 1.929241)age = 39.46603 ? 11.005076ageage 的回归系数的意义为每年身高增长的速度 因此女孩身高的增长速度为? 2,样本估计值为 9.075835 男孩身高的增长数为? 2+? 3,样本估计值为 11.005076 男孩与女孩身高的增长速度差异为? 3,?3&0 说明男孩身高增长速度快,? 3&0 说明 女孩身高增长速度快,? 3 说明女孩与男孩的身高增长速度是一样的。样本估计值 为 1.,P 值&0.001。因此男孩身高速度高于女孩,并且差别有统计学意 义。例:治疗缺铁性贫血 100 人,随机分为 2 组,给予不同疗法治疗:经 过一个月治疗后,治疗前后的红细胞数(万/?l)如下:A组 治疗前 y1 325 312 331 328 316 367 354 311 364 345 335 329 336 293 345 364 311 347 350 295 369 323 385 324 312 322 340 治疗后 y2 337 325 343 341 330 380 367 325 378 360 348 344 349 306 358 378 325 360 364 308 383 336 399 338 325 336 353 组别 group 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 B组 治疗前 治疗后 组别 y1 y2 group 327 348 0 334 347 317 351 299 336 317 305 362 315 370 346 324 324 362 318 329 356 356 356 340 322 310 357 345 340 354 368 337 371 319 357 338 326 382 333 394 368 345 346 383 338 350 378 376 378 362 342 330 378 365 361 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 330 347 361 374 327 335 363 338 328 303 329 317 334 334 335 330 338 353 332 303 369 328344 361 374 389 340 349 377 350 344 316 342 331 346 348 348 343 353 366 345 317 384 3431 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1330 358 306 322 304 327 353 355 346 369 326 333 367 363 337 368 339 337 369 358 357 345351 380 329 342 325 348 374 376 369 390 348 355 389 384 360 389 361 358 390 380 378 3680 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0治疗前X?S治疗后X?S第一组 335.28?20..82?21.04678 第二组 339.98?19..14?20.188914 考虑以治疗前后的改变量为评价的效应指标 先不考虑校正基线 则可以用成组 t 检验进行统计分析 gen y=y2-y1 ttest y,by(group) 结果如下:Two-sample t test with equal variances -----------------------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------0 | 49 21.13 1..87 1 | 49 13.51 .. ---------+-------------------------------------------------------------------combined | 98 17.31 3.. ---------+-------------------------------------------------------------------diff | 7.775 7.985898 -----------------------------------------------------------------------------Degrees of freedom: 96 Ho: mean(0) - mean(1) = diff = 0 Ha: diff & 0 Ha: diff ~= 0 Ha: diff & 0 t = 38.2419 t = 38.2419 t = 38.2419 P & t = 1.0000 P & |t| = 0.0000 P & t = 0.0000现用线性回归完成上述分析 设 B 组(group=0)受试者的红细胞数改变量的总体均数为?d=?, 设 A 组(group=1)受试者的红细胞数改变量的总体均数为?d=?+? 因此两组的总体均数可以表示为? d=?+?group 用线性回归 . regress y groupSource | SS df MS Number of obs = 98 -------------+-----------------------------F( 1, 96) = 1462.45 Model |
Prob & F = 0.0000 Residual | 92. . R-squared = 0.9384 -------------+-----------------------------Adj R-squared = 0.9378 Total |
97 15.5131496 Root MSE = .98263 -----------------------------------------------------------------------------y | Coef. Std. Err. t P&|t| [95% Conf. Interval] -------------+---------------------------------------------------------------group | -7.8 0.000 -7..197775 _cons | 21.17 150.76 0.000 20.91 ------------------------------------------------------------------------------? ?的估计值为 21.16327,正是 B 组的样本均数 ? ?的估计值为-7.591837,?+?=21.837=13.571433, 正是 A 组的样本均数 ? ?的估计值为两组样本均数的差值,?的检验统计量 t=-38.24,与 t 检验结果对应,P 值也对应。 ? 可以证明:成组 t 检验也可以用线性回归分析进行。 ? 从本例中可以发现回归系数?的意义就是两组总体均数的差值, 其 估计值同样为两组样本均数的差值。 gen y=y2-y1 regress y groupy1Number of obs = F( 2, 95) = Prob & F R-squared Adj R-squared Root MSE 98 769.69Source | SS df MS -------------+-----------------------------Model |
2 708.654475 Residual | 87. . -------------+-----------------------------Total |
97 15.5131496= 0.0000 = 0.9419 = 0.9407 = .95953------------------------------------------------------------------------------ y |Coef.Std. Err.tP&|t|[95% Conf. Interval]-------------+---------------------------------------------------------------group | -7. 0.000 -7.. | . 0.019 .09966 _cons | 17.541 10.55 0.000 14.02 ------------------------------------------------------------------------------predict sktest ee,residual计算残差值? i残差正态性检验Skewness/Kurtosis tests for Normality ------- joint -----Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob&chi2 -------------+------------------------------------------------------e | 0.233 0.221 3.00 0.2230gen ee=abs(e) 产生残差 e 的绝对值,放在变量 ee (检验方差齐性:Leven’s 方差检验)anovaee group Number of obs = 98 R-squared = 0.0042 Root MSE = .589872 Adj R-squared = -0.0061 Source | Partial SS df MS F Prob & F -----------+---------------------------------------------------Model | . ..41 0.5246 group | . ..41 0.5246 Residual | 33. . -----------+---------------------------------------------------Total | 33. .3458249?=0.1,P 值&&?,因此说明两组残差的平均幅度差别无统计意义。说 明残差方差齐性。 析因分析举例 例 为了研究 A 药和 B 药治疗患免疫球蛋白偏低的儿童的疗效,采 用随机对照试验(RCT)和析因分析的研究设计方案: 第一组:仅是加强营养(作为对照组); 第二组:加强营养并服用 A 药; 第三组:加强营养并服用 B 药; 第四组:加强营养并服用 A 药且 B 药。 每组随机收集了 25 名患者进行治疗 评价药物疗效的指标为 IgA(mg/dl 血清)并用 y 表示 定义协变量 a=1 表示服用 A 药,a=0 表示未服用 A 药; b=1 表示服用 A 药,b=0 表示未服用 B 药;y 44.4 50.89 52.78 51.48 50.34 46.52 49.92 50.34 45.79 46.75 47.18 48.21 55.23 59.4 52. 62.62 56.26 61.05 64.33759 a 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 b 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 53.09 53.57 56.82 55.23 58.359 58.1 61.75 48.84 51.55 49.24 46.68 52.79 61.61 51.86 61.32 50.93 58.91 48.13 46.29 53.42 68.481 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 10 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 68. 79.48 67.53 71.5 70.26 66.16 69.28 65.29 72.63 68.91 74.261 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1对照组 (a=b=0)X?S服 A 药组 (a=1,b=0)X?S服 B 药组 (a=0,b=1)X?S服 A 药且 B 药 组(a=b=1)X?S49.76?4.56859.97?4.77054.17?4.86869.72?4.309gen ab=a*b 产生交互作用变量. regress y a b abSource | SS df MS Number of obs = 100 -------------+-----------------------------F( 3, 96) = 86.66 Model |
Prob & F = 0.0000 Residual |
96 21.4706057 R-squared = 0.7303 -------------+-----------------------------Adj R-squared = 0.7219 Total |
99 77.2059191 Root MSE = 4.6336 -----------------------------------------------------------------------------y | Coef. Std. Err. t P&|t| [95% Conf. Interval] -------------+---------------------------------------------------------------a | 10.591 7.79 0.000 7..81038 b | 4...36 0.001 1..008466 ab | 5...89 0.005 1..028386 _cons | 49.77 53.69 0.000 47. ------------------------------------------------------------------------------三组均数的比较,资料正态分布且方差齐性(reg3.dta) 分组变量 g1 和 g2 定义 方差分 析中 的分 组变 量表示 A 组 group=0 B 组 group=1 C 组 group=2 回归模型中的分组变量表示 对应总体均数 g1=0 g1=1 g1=0 数据结构 观察数据 回归分析的 方差分析的 变量 分组变量 分组变量 y g1 g2 group 38 0 0 0 A 组观 67 0 0 0 ? ? ? ? 察数据 46 0 0 0 87 1 0 1 B 组观察 73 1 0 1 ? ? ? ? 数据 115 1 0 1 124 0 1 2 C 组观察 155 0 1 2 ? ? ? ? 数据 132 0 1 2 回归模型: y ? ?0 ? ?1g1 ? ?2g2 ? ? 即:总体均数 ? y ? ?0 ? ?1g1 ? ?2g2 A 组:g1=0,g2=0,对应的总体均数 ?A ? ?0 ? ?1 ? 0 ? ?2 ? 0 ? ?0 g2=0 g2=0 g2=1 μ μ μA B Cg1=0,g2=0 (或 group=0) 表示 A 组 g1=1,g2=0 (或 group=1) 表示 B 组 g1=0,g2=1 (或 group=2) 表示 C 组? ~ N(0, ?2 ) 且独立。 B 组:g1=1,g2=0,对应的总体均数 ?B ? ?0 ? ?1 ?1 ? ?2 ? 0 ? ?0 ? ?1 C 组:g1=0,g2=1,对应的总体均数 ?C ? ?0 ? ?1 ? 0 ? ?2 ?1 ? ?0 ? ?2 因此 ?B ? ?A ? ?1 ,所以检验 ?A ? ?B 的问题就是检验 ?1 ? 0 的问 题。 因此 ?C ? ?A ? ?2 ,所以检验 ?A ? ?C 的问题就是检验 ?2 ? 0 的问 题。 因为 ?B ? ?C ? (?1 ? ?A ) ? (?2 ? ?A ) ? ?1 ? ?2 , 所以检验 ?B ? ?C 就是检验 ?1 ? ?2 数据格式y 38.62 62.56 69.14 66.9 62.35 46.07 56.69 61.35 43.15 47.99 48.72 55.83 82.9 56.62 28. 71.49 45.06 64.18 77.3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 g2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 34.34 35.28 44.28 40.94 53.26 97.07 76.7 91.02 74.61 56.21 74.98 119.74 127.2 81.85 119.35 86.14 113.6 97.98 67.56 102.29 87.7 63. 61.5 110.1 103. 83.63 124.8 94.82 96.42 126.8 114.4 122.10 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 113.887 132.688 156.8 124.28 126.8 130.6 148.5 165.9 161.03 125.686 111.9 129.4 148. 146.8 107. 122.929 125.1 136.9 148.4 154.355 104.2 134.2 93.44 103.6 125.9 120.4 103.4 121.82050 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1组别 均数 A 组 XA = 59.46 B 组 X B = 97.40 C 组 XC =131.67标准差 18.49 19.83 18.18X B ? X A ? 37.94X C ? X A ? 62.21X C ? X B ? 34.27 regress y g1 g2Source | SS df MS Number of obs = 150 -------------+-----------------------------F( 2, 147) = 183.67 Model |
Prob & F = 0.0000 Residual | 7 355.181898 R-squared = 0.7142 -------------+-----------------------------Adj R-squared = 0.7103 Total |
Root MSE = 18.846 -----------------------------------------------------------------------------y | Coef. Std. Err. t P&|t| [95% Conf. Interval] -------------+---------------------------------------------------------------g1 | 37.254 10.06 0.000 30.98 g2 | 72.254 19.16 0.000 64.06 _cons | 59.265 22.31 0.000 54.79 ------------------------------------------------------------------------------? 得到回归方程 y ? 59.46 ? 37.94g1 ? 72.21g 2 ? A 组:g1=g2=0, y ? 59.46 ? 37.94 ? 0 ? 72.21 ? 0 ? 59.46 正好等于 X A ? 59.46 ? B 组:g1=1,g2=0, y ? 59.46 ? 37.94 ?1 ? 72.21 ? 0 ? 59.46 ? 37.94 ? 97.40 正好等于 X B ? 97.40 ? C 组:g1=0,g2=1, y ? 59.46 ? 37.94 ? 0 ? 72.21 ?1 ? 59.46+72.21 ? 131.67 正好等于 XC ? 131.67g1 的 总 体 回 归 系 数 β?1 ? 37.94 ? X B ? X A?1=μ B-μ A,对应 样本估 计值g2 的 总 体 回 归 系 数 β?2 ? 72.21 ? X C ? X A?2=μ C-μ A,对应 样本估 计值H0:μ A=μ B 对应 H0:β 1 =0,相应的检验值 t=10.06,P&0.001 可以认为μ A?μ B,μ B-μ A=β 1 的 95%CI 为[30.498] 因此至少有 95%可能性可以肯定μ B-μ A&0,即:μ B&μ A。 H0:μ A=μ C 对应 H0:β 2 =0,相应的检验值 t=19.16,P&0.001 可以认为μ A?μ C ,μ C -μ A=β 2 的 95%CI 为[64.706] 因此至少有 95%可能性可以肯定μ C -μ A&0,即:μ C &μ A。 为了检验 H0:μ B=μ 对应检验 H0:β 1 =βC 2vs μ B?μ C, vs H1: β 1?β 2 ,因此在 STATA 软件中输入命令: test g1=g2 ( 1) g1 - g2 = 0.0 F( 1, 147) = Prob & F =82.68 0.0000CP&0.001,因此可以认为μ B?μ C 。可以证明相应的μ B-μ的 95%CI 不包含 0, XB ? XC ,则相应的 95%CI 的下限大于 若 0;若 X B ? X C ,则相应的 95%CI 的上限小于 0。为了考察某指标 y 对冠心病患病是否有关。通过病例对照研 究,比较病例组(用 group=1 表示)和对照组(用 group=0 表示) 的总体均数比较,并考虑该因素 y 可能受年龄 age 的影响: 数据结构g 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 age 41 45 33 44 41 44 31 39 34 32 38 38 44 37 45 32 36 39 34 34 46 31 45 31 y 24.47 19.63 25.82 21.15 22.37 22.29 26.97 26.55 21.82 23.91 27.99 25.71 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 140 38 41 46 43 42 40 32 40 41 39 39 43 43 33 41 34 37 44 39 32 45 43 33 35 38 53 54 54 47 48 46 54 52 51 52 47 53 46 49 55 49 45 46 51 56 56 47 55 45 47 52 54 51 50 58 44 51 56 51 58 58 58 53 49 47 56 4526.87 25.13 24.82 24.43 23.29 22.78 27.3 20.68 22.97 25.81 19.49 23.34 21.24 23.4 23.24 23.82 24.28 21.29 21.26 21.83 23.73 20.39 23.94 26.48 23.1 20.94 22.48 23.32 20.03 25.69 26.77 24.46 21.55 25.83 1 1 1 1 1 1 1 153 54 47 49 50 51 44 5025.28 22.85 22.06 21.83先进行两组均数的比较. sktest y if g==0 Skewness/Kurtosis tests for Normality ------- joint -----Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob&chi2 -------------+------------------------------------------------------y | 0.973 0.306 1.09 0.5785 . sktest y if g==1 Skewness/Kurtosis tests for Normality ------- joint -----Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob&chi2 -------------+------------------------------------------------------y | 0.973 0.457 0.57 0.7520?=0.1,可以认为资料近似服从正态分布。sdtest y,by(g) Variance ratio test -----------------------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------0 | 50 23.39 2..81 1 | 50 23.26 1..25 ---------+-------------------------------------------------------------------combined | 100 23.24 1..46 -----------------------------------------------------------------------------Ho: sd(0) = sd(1) F(49,49) observed = F_obs = 1.408 F(49,49) lower tail = F_L = 1/F_obs = 0.710 F(49,49) upper tail = F_U = F_obs = 1.408 Ha: sd(0) & sd(1) Ha: sd(0) ~= sd(1) Ha: sd(0) & sd(1) P & F_obs = 0.8826 P & F_L + P & F_U = 0.2348 P & F_obs = 0.1174 ?=0.1,可以认为两组方差齐性 . ttest y,by(g) Two-sample t test with equal variances -----------------------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------0 | 50 23.39 2..81 1 | 50 23.26 1..25 ---------+-------------------------------------------------------------------combined | 100 23.24 1..46 ---------+-------------------------------------------------------------------diff | .40527 -.4934 -----------------------------------------------------------------------------Degrees of freedom: 98 Ho: mean(0) - mean(1) = diff = 0 Ha: diff & 0 Ha: diff ~= 0 Ha: diff & 0 t = 0.2156 t = 0.2156 t = 0.2156 P & t = 0.5851 P & |t| = 0.8298 P & t = 0.4149 ?=0.05,两组均数的差异无统计学意义。考虑下列线性回归模型 y ? ?(group, age) ? ??(group, age) ? ?0 ? ?1group ? ?2age因此病例组 group=1 的总体均数为?(1, age ) ? ?0 ? ?1 ? 1 ? ?2age ? ?0 ? ?1 ? ?2age对照组 group=0 的总体均数为?(0, age ) ? ?0 ? ?1 ? 0 ? ?2age ? ?0 ? ?2age因此对于相同的年龄,两组总体均数的差值为?(1, a g ) ? ?(0, a g ) ? ?1 e e用上述模型进行回归分析,结果如下:reg y g age Source | SS df MS Number of obs = 100 -------------+-----------------------------F( 2, 97) = 127.99 Model | 262. 131.092869 Prob & F = 0.0000 Residual | 99. 1.0242482 R-squared = 0.7252 -------------+-----------------------------Adj R-squared = 0.7195 Total | 361. 3. Root MSE = 1.0121 -----------------------------------------------------------------------------y | Coef. Std. Err. t P&|t| [95% Conf. Interval] -------------+---------------------------------------------------------------g | -4. 0.000 -5..975679 age | . 0.000 .1522 _cons | 8. 0.000 6..64567 ------------------------------------------------------------------------------得到回归方程? y ? 8.823 ? 4.673group ? 0.375age病例组 group=1 代入上述回归方程,得到病例组的回归方程? y ? 8.823 ? 4.673 ? 0.375age ? 4.150 ? 0.375age 对照组 group=0 代入上述回归方程,得到对照组的回归方程? y ? 8.823 ? 0.375age ? 8.823 ? 0.375age两组方程的斜率相同, 两组的截距差为 group 的回归系数?1 , 对应检验表明差别有统计意义,由于?1 为在相同的年龄下, 两组均数的差值,因此可以认为病例组患者的 y 指标比对照 组平均低(?1 背景意义)4.673 个单位。y Fitted values 30 Fitted values2520 30 40 age 50 60考虑另一种典型情况: 研究背景同上例类似,考查另一指标 y 在病例对照研究中两 组均数的比较。 数据结构与上例相同g 0 0 0 0 0 0 0 0 0 age 41 45 33 44 41 44 31 39 34 y 24.94 19.62 25.61 21.12 21.20419 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 132 38 38 44 37 45 32 36 39 34 34 46 31 45 31 40 38 41 46 43 42 40 32 40 41 39 39 43 43 33 41 34 37 44 39 32 45 43 33 35 38 53 54 54 47 48 46 54 52 51 52 47 53 46 49 55 49 45 46 51 56 56 47 55 45 47 52 5421.81 22.06 23.37 19.71 22.68 21.27 18.58 25.1 22.22 24.94 26.64 23.38 24.52 22.15 25.81 19.637 23.63 21.078 25.29 20.35 26.19 22.3 26.15 29.24 28.39 29.96 27.15 26.26 26.39 30.16 26.37 28.84 30.56 29.26 26.46 30.39066 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 151 50 58 44 51 56 51 58 58 58 53 49 47 56 45 53 54 47 49 50 51 44 5028.91 31.96 28.33 26.98 30.78 27.73 28.33 26.12 28.79 29.16 26.71 28.9908同样先用 t 检验比较两组均数,再用上述模型进行回归分析 并考虑年龄对这两组均数的影响:. sktest y if g==0 Skewness/Kurtosis tests for Normality ------- joint -----Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob&chi2 -------------+------------------------------------------------------y | 0.966 0.364 0.86 0.6513 . sktest y if g==1 Skewness/Kurtosis tests for Normality ------- joint -----Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob&chi2 -------------+------------------------------------------------------y | 0.232 0.807 1.56 0.4589 . sdtest y,by(g) Variance ratio test -----------------------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------0 | 50 23.36 2..14 1 | 50 28.9 1..17 ---------+-------------------------------------------------------------------combined | 100 25.93 3..59 -----------------------------------------------------------------------------Ho: sd(0) = sd(1) F(49,49) observed = F_obs = 1.426 F(49,49) lower tail = F_L = 1/F_obs = 0.701 F(49,49) upper tail = F_U = F_obs = 1.426 Ha: sd(0) & sd(1) Ha: sd(0) ~= sd(1) Ha: sd(0) & sd(1) P & F_obs = 0.8912 P & F_L + P & F_U = 0.2175 P & F_obs = 0.1088 ?=0.1,可以认为资料近似服从正态分布,方差齐性。 . ttest y,by(g) Two-sample t test with equal variances -----------------------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------0 | 50 23.36 2..14 1 | 50 28.9 1..17 ---------+-------------------------------------------------------------------combined | 100 25.93 3..59 ---------+-------------------------------------------------------------------diff | -5.5194 -4.309001 -----------------------------------------------------------------------------Degrees of freedom: 98 Ho: mean(0) - mean(1) = diff = 0 Ha: diff & 0 Ha: diff ~= 0 Ha: diff & 0 t = -12.3608 t = -12.3608 t = -12.3608 P & t = 0.0000 P & |t| = 0.0000 P & t = 1.0000 ?=0.05,t 检验结果为两组差别有统计学意义。 . reg y g age Source | SS df MS Number of obs = 100 -------------+-----------------------------F( 2, 97) = 481.25 Model | 982. 491.117601 Prob & F = 0.0000 Residual | 98. 1.0205095 R-squared = 0.9084 -------------+-----------------------------Adj R-squared = 0.9066 Total |
99 10.9214608 Root MSE = 1.0102 -----------------------------------------------------------------------------y | Coef. Std. Err. t P&|t| [95% Conf. Interval] -------------+---------------------------------------------------------------g | . 0.925 -.86105 age | . 0.000 .31305 _cons | 7. 0.000 5..030438 ------------------------------------------------------------------------------? 得到回归方程 y ? 7.211 ? 0.033group ? 0.417age对照组 group=0 代入上式:得到对照组的回归方程? ? y ? 7.211 ? 0.033 ? 0.417age ? y ? 7.211 ? 0.417age病例组 group=1 代入上式:得到病例组的回归方程? y ? 7.211 ? 0.033 ? 0.417age ? 7.244 ? 0.417age两组方程的斜率相同, 两组的截距差为 group 的回归系数?1 , 对应检验差别无统计意义,所以对于相同的年龄,两组 y 的 平均数无统计意义。说明作 t 检验得到差别有统计意义的结 果受到年龄的混杂作用。y Fitted values 35 Fitted values30252015 30 40 age 50 60析因分析举例(析因分析.dta) 例 为了研究 A 药和 B 药治疗患免疫球蛋白偏低的儿童的疗效,采 用随机对照试验(RCT)和析因分析的研究设计方案: 第一组:仅是加强营养(作为对照组); 第二组:加强营养并服用 A 药; 第三组:加强营养并服用 B 药; 第四组:加强营养并服用 A 药且 B 药。 每组随机收集了 25 名患者进行治疗 评价药物疗效的指标为 IgA(mg/dl 血清)并用 y 表示 定义协变量 a=1 表示服用 A 药,a=0 表示未服用 A 药; b=1 表示服用 A 药,b=0 表示未服用 B 药; gen ab=a*b 产生交互作用变量 用回归模型 y ? ?(a , b) ? ? , ?~N(0,? 其中 ?(a , b) ? ?02? ?1a ? ?2 b ? ?3ab数据结构y 40 41 42 a 0 0 0)b 0 0 0 44 45 46 47 47 48 49 50 50 51 51 51 51 51 52 53 53 53 54 55 57 59 47 50 50 53 57 57 58 58 59 59 59 59 61 61 61 61 61 61 62 62 62 64 64 65 70 42 46 47 48 50 51 51 52 55 550 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 55 55 56 56 57 58 58 58 59 59 59 60 60 61 63 56 57 60 64 65 65 66 66 66 68 68 68 68 70 70 71 71 71 72 73 73 74 77 78 810 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1对照组 (a=b=0)X?S服 A 药组 (a=1,b=0)X?S服 B 药组 (a=0,b=1)X?S服 A 药且 B 药 组(a=b=1)X?S49.6?4.77842 ?=? 059.24?5.03554 ?=? 0+? 1 df 3 9654.84?5.24150 ?=?0+? 2 MS68.72?5.94783 ?=?0+? 1+? 2+?3. regress y a b ab Source SSModel Residual 4.96Number of obs = 100 F( 3, 96) = 59.13
Prob & F = 0. R-squared = 0.6488 Total y a b ab _cons7589.009976.6565657 t 6.469 3.516 2.012 47.070 P&|t| 0.000 0.001 0.047 0.000Adj R-squared = 0.6379 Root MSE = 5.2688 [95%Conf .Interval] 6..907 8.375 47.69Coef. 9.64 5.24 4.24 49.6Std.Err. 1...755得到回归方程:? y ? 49.6 ? 9.64a ? 5.24b ? 4.24a ? b ? 对照组 a=b=0, y ? 49.6 ? X对照组 ? A 药组:a=1,b=0, y ? 49.6 ? 9.64 ? 59.24 ? XA药组 ? B 药组:a=0,b=1, y ? 49.6 ? 5.24 ? 54.84 ? XB药组A 药+B 药组,a=b=1,? y ? 49.6 ? 9.64 ? 5.24 ? 4.24 ? 68.72 ? XA药+B药组研究问题 1:单独用 A 药,效应如何? 单独用 B 药,效应如何? 同时用 A 同时用 B 药的效应是否大于或小于单独用 A 药的 效应+单独用 B 药效应? A 药的样本效应值为 9.64 B 药的样本效应值为 5.24 A 药+B 药的样本效应值为 9.64+5.24+4.24=19.12&A 药和 B 药 单 独 使 用 的 效 应 值 的 和 9.64+5.24=14.88 , 两 者 相 差? ?3 ? 4.24 ,且有统计意义。即有协同作用。vs H a:?1??2研究问题 2:单独用 A 药和单独用 B 药,哪个药效果好? H0:?1 =?2 STATA 命令:test a=b test a=b ( 1) a - b = 0.0 F( 1, 96) = 8.72 Prob & F = 要。 0.0040,说明差别有统计意义且 A 药优于 B多个回归系数检验问题 例 3-2 健康女性身体各部位脂肪分布情况 用 x1 表示三头肌皮褶厚度, 表示大腿围, 表示中臂围, x2 x3 用 y 表示身体脂肪。试用线性回归分析的方法分析身体脂肪 与三头肌皮褶厚度,大腿围和中臂围之间的关系。no 1 2 3 4 5 6 7 8 9 10 x1 19.5 24.7 30.7 29.8 19.1 25.6 31.4 27.9 22.1 25.5 x2 43.1 49.8 51.9 54.3 42.2 53.9 58.5 52.1 49.9 53.5 x3 29.1 28.2 37 31.1 30.9 23.7 27.6 30.6 23.2 24.8 y 11.9 22.8 18.7 20.1 12.9 21.7 27.1 25.4 21.3 19.3 no 11 12 13 14 15 16 17 18 19 20 x1 31.1 30.4 18.7 19.7 14.6 29.5 27.7 30.2 22.7 25.2 x2 56.6 56.7 46.5 44.2 42.7 54.4 55.3 56.6 48.2 51 x3 30 28.3 23 28.6 21.3 30.1 25.7 24.6 27.1 27.5 y 25.4 27.2 11.7 17.8 12.8 23.9 22.6 25.4 14.8 21.1STATA 命令 regress SourceModel Residualy x1 SSx2x3 df3 16MS 129..389..844739Number of obs=20 F(3, 16)=19.63 Prob&F=0.0000 R-squared=0.7863 Total495.3895131926.0731323AdjR-squared=0.7463 Root MSE=2.572H0:?1=?2=?3=0vs H1:?1,?2,?3 不全为 0P&0.0001, 因此拒绝 H0 , 并认为至少有一个回归系数不为 0。y Coef. x1 1. -. -.5102747 _cons 12.08683 Std.Err. 1..71 t 0.853 -0.116 -0.727 0.264 P&|t| 0.406 0.909 0.478 0.795 [95%Conf. -1....96181 Interval] 4..5虽然所有单个回归系数的检验 P&0.05,但是单个回归系数的 检验是指其它回归系数均在模型中的条件下,而该因素的回 归系数?=0 的检验。事实上,出现这种情况,很可能是自变 量之间高度相关且某一个自变量可以被其它自变量线性表 示。称为多重共线问题。? 多重共线对分析的影响 VIFs (variance inflation factors) ? 对于自变量 p 个自变量 x1,x2,…,xp 中,以其中一个 xi 作 为因变量作回归以及其它 p-1 个变量为自变量,得到相应的 决定系数 Ri。定义 xi 的膨胀因子VIFi ?1 1 ? Ri2? VIFi=1 对应 Ri2 ? 0 说明 xi 与其它 p-1 个自变量无共线。 ? 当 1 ? Ri2 ? 0 对应 VIFi&1 ? 当 Ri2 ? 1 ,说明 xi 与其它 p-1 个自变量完全共线,对应 VIFi 成为无穷大。 ? 通常认为在 p 个自变量 x1, 2, xp 中,最大的 VIF&10, x …, 则认为严重共线,最小二乘估计受到较严重的影响。? 平均 VIF= i?1? VIFiP -1p&&1,则认为多重共线。在本例中,自变量 x1,x2,x3 可能多重共线。 因此在运行 regress 命令后,再输入计算膨胀因子的计算 vif Variable | x1 | x2 | x3 | Mean VIF |VIF 133.53 106.70 18.83 86.351/VIF 0...053106因此可以认为严重的多重共线。. sw regress y x1 x2 x3,pe(0.05) pr(0.051) begin with full model p = 0.9089 &= 0.0510 Source | Model | Residual | Total | removing x2 SS 389...389513 df 2 17 19 MS 194...0731323 Number of obs = F( 2, 17) = = = = Prob & F R-squared Root MSE 20 31.25 0.2 0.3-------------+-------------------------------------------+------------------------------Adj R-squared =-----------------------------------------------------------------------------y | x1 | x3 | Coef. 1.000585 -.431442 Std. Err. .66156 t 7.80 -2.44 P&|t| 0.000 0.026 [95% Conf. Interval] .7300389 -..271131 -.0588157 -------------+----------------------------------------------------------------_cons | 6...51 0.149 -2..26108 ------------------------------------------------------------------------------当 x2 剔除模型后,x1 和 x3 的回归系数均有统计意义。 所以模型中,出现多个回归系数的 P 值&0.05,不能立刻断定这些 P 值大于 0.05 的回归系数所对应的变量均无统计意义而剔除模型。 逐步回归也分为二种方式:前进法和后推法筛选变量。 以例 3-3(pp46)为例分别说明逐步回归的前进法和逐步回归 的后退法过程。 为了使资料较好地正态分布,对 y 取对数 gen yy=ln(y)/ln(10) 第一步: 寻找最佳的单变量线性回归模型 模型 1 y ? ?0 ? ?1x1 ? ? 得到相应的 F1=7.09 P 值=0.01 模型 2 y ? ?0 ? ? 2 x 2 ? ? 得到相应的 F2=28.19 P 值&0.001 模型 3 y ? ?0 ? ?3 x 3 ? ? 得到相应的 F3=41.25 P 值&0.001 模型 4 y ? ?0 ? ? 4 x 4 ? ? 得到相应的 F4=50.05 P 值&0.001 因此就单变量的线性回归模型而言,模型 4 是相对最好的。 第二步 考虑回归模型中引进第 2 个变量: 模型 5 y ? ?0 ? ?1x1 ? ? 4 x 4 ? ? 得到相应的 F1=0.003 P 值&0.05 模型 6 y ? ?0 ? ? 2 x 2 ? ? 4 x 4 ? ? 得到相应的 F2=19.46 P 值&0.001 模型 7 y ? ?0 ? ?3 x 3 ? ? 4 x 4 ? ? 得到相应的 F3=26.93 P 值&0.001 因此选用模型 7(既引进变量 x3) 第三步 考虑回归模型中引进第 3 个变量: 模型 8 y ? ?0 ? ?1x1 ? ? 2 x 2 ? ? 4 x 4 ? ?得到相应的 F1=6.891 P 值&0.02模型 9 y ? ?0 ? ? 2 x 2 ? ?3 x 3 ? ? 4 x 4 ? ? 得到相应的 F2=88.83 P 值&0.001 因此选用模型 9(既引进变量 x2) 考虑回归模型中引进第 4 个变量: 模型 10 y ? ?0 ? ?1x1 ? ? 2 x 2 ? ?3 x 3 ? ? 4 x 4 ? ? 得到相应的 F1=163.84 P 值&0.001,但是 x4 的 P 值=0.805, 相应 F4=0.0615,因此 x4 应从模型 10 中剔除。因此得到模型 11 模型 11 y ? ?0 ? ?1x1 ? ? 2 x 2 ? ?3 x 3 ? ? 最后得到模型为的变量已经不能在引进模型并且模型中的变量 也不能被剔除出模型。该模型具体结果为 MS Source SS df Number of obs=54F(3, 50)=585.89Model Residual Total yy x1 x2 x3 _cons3..3 50 531.4957143 P&|t| 0.000 0.000 0.000 0.000Prob&F=0.0000 R-squared=0.9723Adj R-squared=0.9707 RootMSE=.04688Coef. .93 .4836226Std.Err. t ..974 ..296 ..077 ..344[95%Conf. .88 .3979898Interval] .8 .5692553应用回归结果前,应检查 1)残差是否近似正态分布(要求基本对称就可以了,大样本时要求可 以更低一些)。 2)残差的离散程度是否各个自变量变化无关?若残差的离散程度与 某个自变量的变化有关, 则应采用某种变换或用关于方差稳健的回 归分析(robust regression):在 STATA 软件中:如本例 regress yy x1 x2 x3,robust 若满足上述二条,回归系数的检验结果是可靠的。 3)若要应用回归模型进行预测, 则还应满足各个自变量与残差无任何 明显趋势变化。 4)在引入模型的自变量中, 若有亚元变量, 则亚元变量是一组变量(认 为向量变量),所以对于某一组的亚元变量,则要么该组亚元变量 全引进模型, 要么该组亚元变量全剔除出模型。 不能亚元变量的某 几个成分的变量进入模型,另外几个成分的亚元变量未进入模型。
多元线性回归分析——提供以文本文档的格式的各类文档免费下载和在线浏览。

我要回帖

更多关于 matlab多元线性回归 的文章

 

随机推荐