线性回归问题

《数学建模解多元线性回归问题》由会员分享,可在线阅读,更多相关《数学建模解多元线性回归问题(22页珍藏版)》请在人人文库网上搜索。

1、数学建模解多元线性回归问题 公司年销售额的分析 摘 要 公司年销售额通常和许多因素有关,但它们之间并不是确定性关系,所以我们用回来分析来处理,并建立了多元线性回来模型。本文用最小二乘的方法给出了变量间相关关系的回来方程,针对各因素对公司年销售额的影响我们与偏回来平方和联系起来,并将各因素的影响程度进行了排序。还通过F检验和T检验分别验证了回来方程的显著性和方程系数的显著性。最终我们采纳了逐个剔除的方法找出了影响年销售额的主要因素,并且建立了新的回来方程,再次进行检验,新回来方程高度显著,最终得到了个人可支配收入、价格、投资和广告费亲密相关的结论。 第一问:我们首先对附表1的数据进行处理,利用M

2、ATLAB对残差向量进行分析,剔除其中的特别点。然后建立起多元线性回来模型,采纳最小二乘的方法来估量回来方程的参数 i。我们引入偏回来平方和Qi的概念来判定各因素对年销售额的影响程度,并对各因素的影响程度由深到浅进行了排序。 其次问:通过对回来平方和S回和剩余平方和S剩的分析,并且运用F检验法 x2,来判定线性回来方程的显著性。由于回来方程显著并不意味着每个自变量x1,x3,x8对因变量y的影响都是重要的。所以我们对方程系数的显著性用T检验 法进行了检验。最终通过逐个剔除的方法找出了其中的主要因素,主要因素为: 个人可支配的收入、价格、投资、广告费这四个方面。 第三问:通过逐个剔除的方法建立了

3、新的回来方程,并对新的回来方程进行显著性检验,对方程系数进行显著性检验。得到了公司的年销售额与个人可支配收入、价格、投资和广告费亲密相关的结论。 1 问题重述 在经济流通领域中,某公司的年销售额(y)与个人可支配的收入(x1);商人的回扣(x2);价格(x3);讨论与进展费(x4);投资(x5);广告费(x6);销售费用(x7);总的工业广告预算(x8)等有关。附表1中是某公司的原始数据。建立模型,分析各因素对年销售额的影响程度。并对所做模型进行检验,找出影响销售额的主要因素。最终分析主要因素与销售额的关系,并给出结论。 2 问题分析 对于公司年销售额的分析,我们知道,和y有关的变量有8个,讨

4、论y与变量x1,x2,x3,x8之间的定量关系的问题为多元回来问题。又由于很多多元非线性回来问题都可以化为多元线性回来问题,所以对于本问题我们建立了多元线性回来的数学模型。 第一问: 首先对附表1的数据进行处理,对残差向量进行,剔除其中的特别点。然后我们建立了多元线性回来的数学模型,并采纳了最小二乘法来估量参数。把模型写成矩阵的形式,化简整理得其正规方程组,通过对正规方程组的求解,最终得到回来方程。 对于各因素对年销售额的影响程度,由于利用偏回来平方和Qi可以衡量每个变量在回来中所起的作用大小(即影响程度),我们对每个变量xi的偏回来平方和Qi进行了计算,最终把影响程度由深到浅的各因素进行了排

5、序。 其次问: x2,回来方程的显著性检验:事先我们并不能断定随机变量y与一般变量x1,x3,x8之间是否确有线性关系。在求线性回来方程前线性回来模型只是一种假 设,所以在求出线性回来方程之后,我们需要对其进行统计检验。将总的平方和 S总分解为回来平方和S回和剩余平方和S剩,运用F检验法来判定线性回来方程 的显著性。 回来系数的显著性检验:由于回来方程显著并不意味着每个自变量x1,x2, x3,x8对因变量y的影响都是重要的。而我们要找出响销售额的主要因素,即 从回来方程中剔除那些次要的、可有可无的变量,这就需要我们对每个变量进行 考察。明显,假如某个变量对y的作用不显著,那么在多元线性回来模

6、型中,它前面的系数 j就可以取值为零。因此,检验因子xi是否显著等价于检验假设 H0: i 0 。最终再运用T检验法来辨别模型中哪些因子是显著的。 第三问: 由于回来系数之间存在相关性,当从原回来方程中剔除一个变量时,其他变量,格外是与它亲密相关的一些变量的回来系数就会受到影响,剔除一个变量后,这个变量对y的影响很大部分转加到另一个变量对y的影响上。所以,我们对回来系数进行一次检验后,只能剔除全部不显著因子中t值最小的,然后重新建立新的回来方程,再对新的回来系数逐个进行检验,直到余下的回来系数都显著为止。 3 符号说明 4 模型假设 1.影响销售额的各个因素相互之间关联性不大,即相互独立。 2

7、.特别值认为是人为因素引起的,可将其剔除。 5 模型的建立与求解 第一问: 5.1模型 “多元线性回来的数学模型” 5.1.1 模型的建立 1、处理数据 我们先通过MATLAB(程序见附录1)对原始数据进行检验,对残差向量进行分析,得到了残差向量分析图,剔除其中的特别点。 2、设随机变量 假如变量y与另外8个变量x1,x2,x3,x8的内在联系是线性的,它的第 次试验数据是 (y

1 2 , , 8 38 那么多元线性回来的数学模型(2)可以写成矩阵形式 Y X . (3) 其中 是38维随机向量,它的重量是相互独立的。 3、参数 的最小二乘估量 为了估量参数 ,我们采纳最小二乘估量法。设b

9、0,b1, ,b8分别是参数 0, 1, 8的最小二乘估量,则回来方程为 y b0 b1x1 b2x2 b8x8 (4) 的偏差平方和Q由最小二乘法知道,b0,b1, ,b8应使得全部观看值y 与回来值y 达到最小,即使 Q (y y ) 2 最小 (5) 所以是b0,b1, ,b8的非负二次式,最小值肯定存在。依据微积分学中的极值原理,b0,b1, ,b8应是下列正规方程组的解:

10、得到回来方程的回 归系数: b A-1B (X X)-1X Y (7) 4、由于利用偏回来平方和Qi可以衡量每个变量在回来中所起的作用大小(即影响程度),设S回是p个变量所引起的回来平方和,S回1是p-1个变量所引起的回来平方和(即除去xi),则偏回来平方和Qi为: b Qi=S回-S回1= bjBj- bjBj=i (8) ciij 1j 0 * p p 2 就是去掉变量xi后,回来平方和所削减的量。 5.1.2 模型的求解 1、数据筛选 通过MATLAB(程序见附录1)作图如下: 此时可见第八个点、第十四个点和其次十八个点是特别点,于是删除原始数据中第八行和第十四行和其次十八行数据。 2、

  • 线性回归问题中,我们使用LSE最小二乘损失函数;而在逻辑回归问题中,我们不能使用LSE损失函数,应该使用交叉熵损失函数,而交叉熵损失函数是由极大似然估计推导而来,推导过程见LR推导;

  • 本文讲解如何从极大似然估计的角度解决线性回归问题。本文参考自PRML

    x,输出对应的预测值。其中

  • 建立一个判别模型,使得输入一个数据

    y 值对应的概率,如果

    y 值的概率密度函数。

  • 我们使用线性高斯分布(Linear Gaussian)来建立该判别模型:

    θTx表示线性模型,也可以是其他形式的线性组合(注意,这里的线性指的是对参数

    β表示精度(方差的倒数);

5 极大似然和最小二乘的关系

  • 极大似然估计的计算结果

    θML?=(XTX)?1XTY,就是最小二乘法求解线性回归问题的解,投影矩阵

    X张成的子空间的投影。

0x1:线性回归和线性分类中的“线性”指的是什么

线性(linear),指量与量之间按比例、成直线的关系,在数学上能够理解为一阶导数为常数的函数;
非线性(non-linear)则指不按比例、不成直线的关系,一阶导数不为常数php

0x2:从输入输出角度看"回归"和"分类"的区别

线性分类问题和线性回归问题都要根据训练样本训练出一个实值函数g(x),g(x)也叫映射函数html

1. 回归模型: 给定一个新的输入特征, 推断它所对应的输出y(连续值实值)是多少, 也就是使用y=g(x)来推断任一输入x所对应的输出值。
注意: 若是咱们将回归模型(regression model)的连续输出进行离散化,虽然看起来获得了有限个离散类别,但其本质仍是回归模型,只是对输出作了特殊处理
2. 分类模型: 给定一个新的输入特征, 推断它所对应的类别(大多数状况是二分类如: +1, -1,也能够基于二分类扩展出多分类), 也就是使用y=sign(g(x))来推断任一输入x所对应的类别.
注意: 模型的输出结果类别是有限的

0x3:典型线性回归和线性分类算法

0x3:扩展到多元线性回归

在实际经济问题中,一个变量每每受到多个变量的影响,有时几个影响因素主次难以区分,或者有的因素虽属次要,但也不能略去其做用。例如,家庭消费支出,除了受家庭可支配收入的影响外,还受诸如家庭全部的财富、物价水平、金融机构存款利息等多种因素的影响。在这种复杂问题的拟合中,咱们要用到多元线性函数

多元回归分析预测法,是指经过对两个或两个以上的自变量与一个因变量的相关分析,创建预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析

鸢尾花数据集是一个很经典的数据集,每一个样本包含4个维度的特征:的花瓣和萼片长度和宽度。样本量150个,label标签有Setosa,Versicolour、Virginica这3种

0x1: 前2维特征+4维PCA降维到3维的可视化数据集展现

我要回帖

更多关于 线性回归常见问题及解决方法 的文章

 

随机推荐