2.1 绘制多个变量的相关图:
-
解读相关系数矩阵图,请参考搜索获取了解。蓝色表示正相关红色表示负相关,对应颜色的饼图表示相关的度
2.2 建立回归模型(检测报告,模型进行估计和检验用到了如下检测结果):
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
从检验结果可以看出 x1x2,x5 对 y 的总误差平方和贡献顯著
2.3 回归模型方程式:
3 对模型进行估计和检验
多重决定系数是多元线性回归中回归平方和SSR 占 总平方和SST的比例,计算公式为:
它表示因变量y的总误差中被多少个自变量共同解释的比例
为避免增加自变量而高估多重决定系数,统计学家使用样本量n和自变量的个数k 去调整 多重決定系数:
计算知:多重决定系数为:0.8518说明日均营业额时与周边居民人数,用餐平均支出周边居民月平均收入,周边餐馆数和距离市Φ心这5个自变量模型的拟合度较高
标准误 就是指 残差的标准差,计算公式:
计算知:估计的标准误差为:10.65根据建立的多元线性回归方程,周边居民人数用餐平均支出,周边居民月平均收入周边餐馆数和距离市中心这5个自变量预测日均营业额时,平均的预测误差为10.65万え
3.3 模型的显著性检验
包含如下检验:线性关系检验回归系数检验。请参考 (2.2处:检测报告)诠释如下两种假设此次省略具体说明。
-
在圖中发现点24,16具有较大残差残差的正态性存在问题(可以考虑重建模型,或者剔除较大残差值)如下我们剔除点 2,4 重新建立回归模型:
-
4 判别模型中是否存在多重共线性
变量之间的高度相关性造成回归结果的混乱。多重共性性可能对参数估计值的正负号产生影响
4.2 识別共线性和处理
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
#4,用容忍度和方差膨胀因子(VIF),VIF 大于10 存在严重的共线性:
-
-
-
如上分析数据可知不存在严重的共线性问题
4.3 变量的选择与逐步回歸
建立模型之前就有选择的确定进入模型的自变量,也可以避免多重共线性问题变量的选择方法主要有 向前选择,向后剔除逐步回归 等。
逐步回归以 赤池信息准则AIC为选择标准选择AIC最小的变量建立模型,计算公式为:
式中n为样本量;p为模型中参数的个数(包括常数项)
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
根据R的逐步回归结果,得到最终的估计方程:
-
-
-
-
-
-
-
对比数据得知 fit2 模型的拟合的更好。
5 利用回归方程进行预测
基于多点的点估计求出区间估计(均值的区间估计,个别值的预测区间)
-
-
-
-
-
-
  日均营业额 点预测值残差 标准化残差 置信下限 置信上限 预测下限 预测上限
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
代码化的类别变量荿为哑变量或者虚拟变量在回归模型中使用哑变量时称为哑变量回归或者虚拟变量回归。
至此多元线性回归预测也完成了,欢迎大家指正请各位多多转发,给我好看
公众号后台回复关键字即可学习