空间后方交会计算未知参数相关性,用不用考虑所列出方程的权值,对pearson相关系数数的大小会有影响吗

遥感与摄影测量题库[1]
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
遥感与摄影测量题库[1]
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
摄影测量与遥感试题及答案[1]
下载积分:450
内容提示:摄影测量与遥感试题及答案[1]
文档格式:PDF|
浏览次数:35|
上传日期: 10:12:11|
文档星级:
该用户还上传了这些文档
摄影测量与遥感试题及答案[1]
官方公共微信摄影测量复习题
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
摄影测量习题集答案N(1)
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口[转载]统计相关模型
  不同的地理现象是不同的地理过程相互作用和相互影响的结果。这些现象的不同特征,可以通过调查和试验数据展示出来。每次调查和试验,可以认为是地理现象的一次随机抽样。通过对调查和试验结果的统计分析可以获得对地理现象总体的认识。
  在统计上,调查和试验数据可以看作是地理过程的随机表现,具有随机过程的性质。概率论是随机过程的基础,大数定律是使用统计学方法研究随机过程的基本依据。在统计研究中,一般假定研究对象的数据分布类型为正态分布。对于非正态分布的数据,需要转换为正态分布后才能进行统计分析,否则,要选择与数据分布类型相一致的分析方法。
  分析单个变量或两组变量之间的关系,使用相关分析方法;分析变量组合所表现出来的相关关系,使用因子分析方法。通过相关分析和因子分析建立成因过程与地理现象的联系,为科学的理论提供基础。在相关分析的基础上,利用变量之间的关系通过回归分析对具有相同分布的新数据进行预测。
4.1建模基础
  现代科学研究中包含三个要素:理论、观察和统计。
  科学理论关系到科学的逻辑方面,它是在基本原理的指导下,根据已经掌握的事实,经过一系列的思维过程,形成对未知现象的内在规律的猜想,这个过程称为科学假说。在科学发展过程中,假说是理论发展的重要途径之一。假说是理论形成的初级阶段,随着假说的科学性得到验证和证明,假说可以转化成理论。
  观察是为研究取得客观实际材料的过程,它和研究方法直接联系。这里所说的观察是广义的观察,包括应用实验方法、调查方法、实地研究方法等。这些方法应该在方法论的指导下得到正确的应用。首先,研究目的要明确,要清楚地认识到所进行的研究是描述型、解释型、还是探索型的。其次,还要明确研究总体和分析单位。然后,根据研究的目的和研究的对象选择观察的方法。
  统计除了可用于观察数据汇总和统计描述外,还可以对多变量之间的关系进行定量描述,可以用来把实际观察资料与理论假说的推论联系起来对假说进行检验。
  从研究过程看,理论、观察和统计三个要素是密切联系,相互制约的。将它们统一在一个完整的研究设计方案中加以实施,是推进对现象认识的最佳途径。
  统计的应用不仅需要专业理论的指导,也需要方法论的指导。忽视这两个方面,便极易导致研究结论中的谬误。
4.1.1统计学的基本概念  一般而言,统计方法指对数据的收集、显示、分析的方法,这种方法可以作为地理、生物等研究的基础。统计分析可以分为两部分。描述统计学(Descriptive
statistics)和推断统计学(Inferential Statistics)。
  描述统计学主要处理数据的组织和汇总,其目的是用较少的汇总性的测度代替大量的数据。其关键是针对不同的问题采用合适的统计测度,以避免采用不合适的统计测度所带来的后果。
  推断统计学主要与概率理论相联系,它是为了能够将少数个体的研究结果推广应用到更大群体中的方法。这一推广应用的过程与以下几个概念密切相关,这些概念之间的关系如图
图 4.1 统计分析中各个概念的关系
  1.总体
  总体是研究对象中所有要素的集合。总体可分为有限总体和无限总体。统计分析要考虑有限的和无限的总体。
  2.总体特征
  总体特征是指总体中任一要素的可测属性。总体特征的取值随总体包括的要素不同而变化,所以常用变量来表征总体特征。总体特征的值是变化的,需要关注其随时间的变化过程。
  3.变量
  变量是能够取不同值的要素的总体特征。对于总体而言,可以从两个方面来收集信息。一是确定总体中每个感兴趣要素的变量值,这就是通常说的总体普查(总体枚举)方法。很清楚,这只能用于总体有限的情况。另一方面是确定总体中有限个体子集的变量值,这就是采样的方法,它用于总体无限的情况,在实践中更为重要。
  4.总体普查
  总体普查是指总体中所有要素的相关总体特征的完全列表。
  5.样本
  样本是总体中要素的子集,用来推断总体的某些特征。
  6.采样误差
  采样误差是总体特征值与由样本得到的总体特征值之间的差异。
  7.非采样误差
  非采样误差是数据在采集、记录、编辑等过程中产生的误差。
  连接样本和总体的是概率论。总体的推断基于样本的信息,推断的质量取决于样本对总体的反映程度。由于缺少总体普查,通常不是使用代表性样本,而是使用随机样本进行分析。样本量越大,越可获得无偏估计量。
  统计推断的过程如图
4.2所示。在采样过程中,选择的是总体的成员。这些成员构成了样本。从该样本中,可以作出关于总体的推断。采样是从总体中得到样本,统计推断则从样本回到总体。
图 4.2 总体与样本关系
  统计推断的目标是基于样本的信息提供总体的特征。有两种方式进行这种推断。一类是估计,另一类是假设检验。
  8.估计
  估计是利用样本信息推测未知的总体特征的值。
  9.假设检验
  假设检验是判断样本数据是否支持假设的某些总体特征的特定值。在假设检验中,先假设某些总体特征的值,然后判断样本数据对该假设值的支持程度。
  在进行实际的工作之间,对于变量和样本,我们需要考虑如下的问题。(1)变量
  1)变量足够吗?
  2)变量之间有关系吗?如果有,那么关系的形式和强度如何,怎么获取和表述?
  3)如果我们希望变量之间无关,怎么进行变换?变换的有效性如何?
  4)变量的分布符合正态吗?能够使用经典的统计学方法处理吗?
  5)不同测量尺度的变量怎么进行混合处理?哪些方法合适呢?
  (2)样本
  1)样本足够吗?
  2)如果样本太多,怎么选择合适的样本和数量?
  3)如果样本太少,怎么补充样本?
  4)如果某变量有样本缺失,怎么进行处理?
4.1.2统计方法  统计学方法广泛使用于地理学的研究中,并取得了多方面的成果。
  1.数据的获取与处理,记录、整理和比较数据,并将结果用图表进行显示。
  2.抽样,为问题分析提供统计根据。
  3.数据分析,探索数据中存在的趋势、点群以及简单的或多重的相关性。
  4.假设检验,验证可说明具体现象的原因和起源的概念或模型。
  5.定量预测,对具体问题提供解答。
4.1.3统计关系与确定关系
  变量之间的关系有两种:一是在经典的物理学中的变量关系,为函数关系,是确定性的关系。二是在统计学中的变量关系,为统计相关关系,主要处理的是随机变量或概率分布的变量。
4.2模型分类
  根据统计相关模型的应用目的,将模型分为三类:1)相关分析;2)回归分析;3)因子分析。模型的数据分布假设是多元正态分布。
4.2.1相关分析
  相关分析模型研究变量间的相互关系并进行信度检验。相关分析模型主要通过相关系数、偏相关系数和典型相关分析来建立。研究的结果有助于分析概念模型中变量间的关系,并将其定量化和细化。相关模型中的相关关系并不意味着因果关系。因果关系的建立,来自于先验的或理论上的考虑。相关关系可以为因果关系的建立提供基础。相关显著的变量之间可以是具有直接因果关系、间接因果关系,或者仅仅只是统计上的关系。
  相关分析经常要回答的问题是:
  1)变量之间有没有相关关系?
  2)相关关系的表现方式如何,是正相关还是负相关,是线性的还是非线性的?
  3)相关关系是否显著?
  4)相关关系是直接还是间接的?
  5)相关关系怎么解释?
4.2.2因子分析
  因子分析是使用数学方法建立起来的关于变量之间组合关系的方法。该方法利用协方差结构来组合不同的因子,进而分析推断可能存在的地理过程。
  建立因子的主要机理是,我们观察到的变量之间的关系可以用潜在的不能观察的变量来描述,这些不能观察的变量往往与现象背后的过程相联系。变量的组合关系往往与特定的物理、化学、生物或地理、社会、经济等过程相联系。
过程模型需要回答的问题是:
  1)变量关系的组合合适吗?
  2)怎么解释这种组合?
  3)这种组合与什么过程有联系?4.2.3回归分析
  回归分析使用统计回归方法,建立解释变量与因变量之间的关系表达式。从统计学的角度看,回归是利用均值性质进行推断的一种方法。
  在回归分析中,把研究对象对应的变量叫因变量,把因变量所依赖的变量叫解释变量
。实际上,回归模型是用解释变量来解释因变量的变化。
  在回归分析中,需要回答的问题是:
  1)关系是线性的还是非线性的?
  2)关系表达式是什么?
  3)表达式显著性如何?
  4)表达式是否为简约的?
  5)是否满足假设条件?
  回归分析包括了多种方法,常用的如多元回归分析、岭回归分析、逐步回归分析、逻辑回归分析、概率回归、积分回归、稳健回归等,分别用来解决特定的问题。
  应该注意的是,相关分析和回归分析是有差异的。在相关分析中,我们平等看待每一个变量,对应变量和解释变量不进行区别,它们都是随机变量。但是在回归分析中,应变量被看作是统计的、随机的,有一个概率分布。解释变量被看作是(在重复抽样中)取固定值的,是非随机的。
4.2.4统计相关建模目的
  1.变量间相关性研究
  人们对变量间关系的本质感兴趣,并试图通过这种联系建立对事物总体的认识。是否所有变量都相互独立?还是一个变量或多个变量依赖于其他变量?如果是后者,这些变量之间的关系如何?相关分析就是分析这类问题的。
  2.形成科学的成因假设
根据变量之间的关系建立成因过程与现象的联系,解释所发生的地理现象。因子分析就是可用的方法之一。
  3.预测
  为了根据某些变量的观测值预测另一个或另一些变量的值,必须建立各个变量之间的联系。回归分析就是可用的方法之一。
  4.数据简化或结构简化
  在不损失有价值信息的情况下尽可能简单地将被研究的现象描述出来,希望这样能使解释变得更容易些。因子分析同时也具有这样的&功能。
4.3建模步骤
  统计相关模型建立在观察或搜集到的数据基础之上。建模主要有下面5个步骤。
  1.数据整理
  整理调查数据,按照变量的性质和测量尺度进行归类,形成规则表格并录入计算机。在这项工作中,要注意以下几点:
  1)变量命名是否规范
  2)明确变量的测量尺度和数据类型
  3)检查样本
  4)数据录入
  5)填写说明日志
  2.数据预处理
  根据研究目的和使用的方法,对数据进行预处理,包括分析数据的统计特征、检查数据分布、进行数据变换三方面的内容。对于统计相关模型而言,本步重点要考察数据分布是否为正态分布,如果不是,则要进行转换。
  3.模型计算
  选择模型和模型参数,运行求解。模型计算的结果可以是数字、表格或图形。当前,模型求解的工作由计算机来完成,关键是参数的选择。
  4.模型检验
  对模型进行检验,包括模型是否满足假设的要求,是否具有简约性,模型的结果是否合理,误差分布如何等。
  5.模型解释和应用
  根据建立的模型对研究问题进行解释、预测等。工作的质量主要取决于建模人员的专业素质。
4.4数据预处理
  数据的预处理主要是确定数据的分布类型和统计特征,并根据分析模型的需要进行数据变换。
4.4.1统计特征描述  描述单个变量的统计特征,又称为描述性统计(Descriptive
statistics)或数据特征统计量。
4.4.1.1平均特征描述
  平均特征描述反映数据分布的位置,常用的概念有:期望(Expected
Value),均值(Mean),众数(Mode),中位数(Median),四分位数(Quartiles)。
  1.期望和均值
  在统计分布研究中经常使用期望的概念,在数据处理中常用均值概念。
  对于任意的一个数列或变量X,其均值为:
  其中,n是样本的个数(或数列的长度)。
  在统计学中,均值也常用μ表示。对于正态分布的数据,均值很好地表述了数据的分布位置。
  2.中位数
  中位数:将观察值按照由小到大的顺序排列后,位于中间位置的数称为中位数。如果序列的长度n为偶数,中位数为:
  另外,在工作中经常用的还有四分位数,包括上四分位数和下四分位数(Upper & Lower
quartiles)。上四分位数指的是75%样本数对应的值,下四分位数指的是25%样本数对应的值。假设有100个样本,按照由小到大的顺序排列后,最小的为1,上四分位数是第75个记录对应的值,下四分位数是第25个记录对应的值,中位数则是第50、51个记录对应值的平均。
  3.众数
  在指定的变量(数列,观察序列)中出现次数最多的数(频数最高的数)。如果不统计数据的频数,也可以利用中位数来计算:
  在应用中,如果数据的变化范围不大,应用均值较好,否则,应该使用中位数。众数用于观察数据的极值不确定的情况下。
  如果要进行统计分析,经常使用的是均值。如果数据存在异常分布,则需对异常值分析处理后再进行统计分析。
  如果工作的目的在于精确的描述数据的平均特征,那么,则需要针对不同的情况使用这些概念。在有些情况下,还要进行稳健分析,即分析在较稳定的条件下数据的平均特征。
4.4.1.2变化特征描述
  变化特征描述反映数据的离散程度或变化尺度。常用的有离差,方差,标准差,变异系数。
  1.离差
  离差有几种描述形式。
  1)极差:最大值与最小值的差。
  2)偏差:数据序列中各个数据与其均值的差。
  3)离差平方和:数据序列中各个数据与其均值的差的平方在加和,即
  2.方差、标准差
  方差(Variance)是变量的离差平方和除以样本数。
  标准差(Standard Deviation)是方差的平方根。在统计学中,标准差常用σ表示。
  3.变异系数
  变异系数又称离差系数,指标准差与均值的比值。变异系数越大,数据离散程度越高。
4.4.1.3分布特征描述  分布特征描述用来反映数据的分布形状,即数据偏离正态分布的程度。常用的有:峰度(Kurtosis),偏度(Skewness)。正态分布是对称的,所以其偏度为0,峰度为0。
  不同的文献中,给出的偏度和峰度的公式不同。这里使用的是StatSfot公司的产品Statistica中的定义。
  其中,
  偏度大于0为正偏(平均值在正态分布峰值的右边),小于0为负偏(平均值在正态分布峰值的左边),0则表示分布是对称的。如果  偏度显著的不为0,那么,分布就是不对称的。
  峰度大于0表示数据的分布比正态分布更为集中,小于0则更为分散。
  在使用基于正态分布假设的统计方法以前,计算这两个参数是很有必要的。如果偏度远偏于0或峰度远偏于0,那么,数据为非正态分布,需要进行变换(参数据变换一节)。
  统计软件一般都能计算这些统计特征,下图是SPSS软件中进行统计特征计算的一个对话框。
图4.3& SPSS中主要统计特征的计算
4.4.2正态分布检验  统计相关模型要求数据符合正态分布,所以在进行分析之前需要进行正态分布检验。需要解决的问题是:变量的边缘分布是否为正态,变量的线性组合是否为正态。如果数据不符合正态分布,或者进行数据转换,使得数据接近正态分布,或者选择适合于该分布的模型。
  常用的正态分布检验方法有:图示法,参数检验法等。对样本数一般要求大于20。
4.4.2.1图示法  1.直方图
  频数直方图(Histogram)可以很直观的表示出数据的分布特征。正态分布数据的频数图为钟形或接近钟形。在常用的软件中,绘制直方图时会给出正态分布曲线,以便进行对比。
  分组数和组间距影响着直方图的显示。分组一般采用等距,组数经常是根据经验确定的,也可以采用Sturges公式计算:
  组数=1+3.32lg(样本数)
  确定组数后,组距可根据下面的公式计算:
  组距=(数据最大值-数据最小值)/组数
  然后,统计各组中数据出现的次数,即频数,各组频数之和等于样本数。也可以计算频率,用来强调各组频数的大小对总体所起的作用的相对强度,它是各组频数与样本数之比,计算公式为&
( fi:第i组频数)。
图4.2& 频数直方图
  作为直方图的一个变换表示,茎叶图(Stem-Leaf)也常用来表示数据的分布特征。茎叶图不仅可以表现数据的频数分布,而且可以表示各个分组中数据的构成。例如,下图中,14-15之间的记录有6个,分别是14.3,14.4,14.4,14.5,14.8,14.9,另外,存在一个(频数为1)特殊的值(&26)。与该图对应的直方图见图4.8。
    FrequencyStem && Leaf
    1.00&& 13 .&
    6.00&& 14 .&
    6.00&& 15 .&
    2.00&& 16 .&
    1.00&& 17 .&
    2.00&& 18 .&
    1.00&& 19 .&
    1.00 Extremes(&=26)
    Stem width:& 1
    Each leaf:&& 1 case(s)
  2.概率图
  概率图(P-P
plot)展示的是样本的累积频率分布与理论的正态分布的累积概率分布之间的关系。如果图中各点为直线或接近直线,则样本的正态分布假设可以接受。有些软件中,使用分位数图(Q-Q
plot),其效果类似。
图4.3 概率图
  3.盒子图
  盒子图(Box and Whisker Plots或Box
Plots)是探索性数据分析中常用的统计图,它不仅反映数据的分布特征,而且能够帮助确定数据中存在的特殊样本(Outlier),展示的信息更为全面。在这种图中,样本值由小到大排列,中间的线指示数据的平均特征,一般是样本均值或中位数。盒子指示样本变化,可以是方差、标准差、四分位数,盒子外的上下两条线指示数据的范围,可以是最大-最小值,或标准差*1.96。盒子两条线外如果有点,那么这些点为特殊样本。如果没有明确的说明,那么,盒子的中线为均值,上线为上四分位数,下线为下四分位数,盒子外的上线对应于1.5*上四分位数,盒子的下线对应于1.5*下四分位数,超过这两条线的值是特殊样本,用点表示。
  不同软件绘图时使用的参数不同,需要注意区别。例如,在SPSS中,中间的线为中位数,盒子上下两条线分别为上四分位数(75%)和下四分位数(25%),盒子的高度代表了50%的数据的分布,盒子外的线表示去除了奇异点后的最大最小值。对于正态分布的数据,图形应该下上对称。
图4.4 非正态分布数据的盒子图
4.4.2.2参数检验法
  偏度和峰度两个统计参数常用来说明数据的分布特征。对于正态分布而言,偏度为0,峰度为0。
  更详细的检验可以更准确的在概率水平上给出数据是否符合正态分布的要求。有些软件中(例如Statistics),给出了正态分布的检验方法,可以直接给出假设分布的检验结果。常用的正态分布检验方法有Kolmogorov-Smirnov
d& Lilliefors检验和Shapiro-Wilk's
W检验(当前,W参数检验更为常用),如果参数检验的结果显著(p值较低,例如&0.01),那么拒绝正态分布的假设。下面的两幅图可以更为直观的说明这一点。
图4.5 非正态分布数据的参数检验结果和直方图
图4.6 正态分布数据参数检验结果和直方图
4.4.3数据变换
  一般的,对数据和变量进行转换的主要目的是:1)使变量尽可能为正态分布;2)统一变量的数据尺度;3)使变量之间的非线性关系转换为线性关系;4)用新的数目少的相互独立的变量代替相互联系的原始变量;5)方便用简单自然的方式进行解释;6)帮助理解数据的特征。
  不同的变换方法试图达到的目的不同。不同的数学模型对变量的要求不同,多数多元统计分析方法要求变量总体服从多元正态分布,要求变量的数据尺度一致。变量的变换一定要根据模型的要求,有的放矢地进行。
  为了使数据尺度一致,可以对原始数据进行标准化、极差化或均匀化变换。对于偏态分布的数据,可通过对数变换、平方根变换、正弦变换、反余弦变换等使其接近正态分布。对非线性数据,可通过作散点图,根据点的分布情况选择合适的变换方程。为了减少变量的个数,可以进行R型(基于变量的)因子分析。
4.4.3.1改变数据尺度和分布的变换
  改变数据尺度,是为了使得具有不同量纲的变量具有可比性,主要的方法有标准化变换、极差变换和均匀化变换。分布变换是为了使得数据变换后满足正态分布的要求(大多数的统计方法要求数据服从正态分布),常用的方法有正弦变换、反余弦变换、平方根变换和对数变换。
  1.标准化变换
  其中,Xij为原始数据,是第j个变量的算术平均值,Sj为第j个变量的标准差。i=1,2,…,n,n为样本数,j=1,2,..,m,m为变量数。
  变换后,变量的均值为0,方差为1,无量纲。变量之间的相关系数在变换前后不变。从几何意义上讲,标准化变换相当于将坐标原点移至重心位置。这种变换适合于量纲和数量大小不一的连续性数据。
  变换后的数值,在统计软件中称为Z-分值(Z-score),所以,标准化变换又称为Z-score变换。
  2.极差变换
  其中,Xjmin为第j个变量的最小值,Xjmax 为第j个变量的最大值,其余含义同上。
  变换后,数据无量纲,最大值为1,最小值为0,所有的数值在0-1之间。变换前后变量之间的相关系数不变,从几何意义上讲,该变换相当于将坐标原点移至变量最小值的位置。这种变换适合于量纲和数量大小不一的连续性数据。
  在统计软件中,极差变换称为“Range 0 to 1”。如果变换公式为:
  那么该变换称为最大变换(Maximum magnitude of 1)。
  3.均匀化变换
  式中各变量的含义同前。
变换后,变量的期望值为1,变量与平均数之差的期望为0。适用于比例尺度的数据,如长度,面积,质量等。在统计软件SPSS中,该变换对应于“mean
  4.反正弦和反余弦变换
  变换公式为:
  式中,p为正整数,取变量最大值的整数位数,如291.76取p=3,除以10p是为了将数据变为百分比数据,开方是为了避免数据过小,使用时要根据实际的情况来定。
  这种变换常用于百分比形式的数据,通过把分布曲线的尾部拉长,中部压缩,使得弱负偏和弱正偏的不对称分布接近于正态分布。变换前后变量之间的相关系数有所不同。
  5.平方根变换
  其中,c为常数。变换使正偏数据接近正态分布。常用于服从普阿松分布的离散型变量。常数根据数据特点来定,一般不能太小。
  6.对数变换
  其中,c为常数。
  变换适用于服从对数正态分布的数据,对于各种成分数据(例如土壤地理学中的化学组成数据,粒度分析数据)也经常使用。由于这类数据的分布是偏斜的,很可能出现零值,当取对数时,这些很小的值会变得很大,为了避免这种情况,往往需要加一个常数c。
  对于正偏偏度大的数据,也常使用这种变换。
  7.博克斯-考克斯变换
  选择合适的幂λ,使得下式具有最大值。
  其中,变换如下:
  对于大于0的数据序列,这种方法得到的结果更为准确。当然,变换后是否符合正态分布,还需要检验进行确认。
4.4.3.2改变变量连续性的变换  有时候,需要将连续变量转换为离散变量(次序尺度),在这种情况下,数据在百分位数的基础上进行分组,每组包括的样本数大致相同。
4.4.3.3曲线化直变换
  曲线化直将两个变量之间的曲线关系转化为直线关系。下面是常用的变换公式。
  1.双曲线
  2.幂函数
  变换方法:两边区取对数即可。
  3.指数函数
  y=debx
  变换时,两边取自然对数即可。
  4.对数函数
  令x’=lgx即可。
  5.其他
  更复杂的形式,可以通过取对数与其他方式结合来完成。例如:
  首先,两边取对数,成为:
  令y’=lny, a=lnd,x’=1/x,得
y’=a+bx’
4.4.3.4增加数据可解释性的变换
  有些情况下,改变测量尺度能更显式地提供某些信息。改变测量尺度也可以采用非线性变换。
  在进行数据转换时,要注意下面的几个问题。
  1)数据范围
  对数据进行变换时,只有当数据变化范围相对的较大时,变换才显得有效。
  2)残差
  数据拟合中的残差也能够提供是否需要进行变换的信息。如果残差很大,并且显示出非偶然的变化规律,进行变换可能会更有效的解释数据的基本结构。
  3)试差法
  也可以直接假定某些变换形式,然后进行尝试。通过比较变换前后数据的统计特征,可能帮助我们进行判断。
  要注意的是,对于模型要求的数据性质,不是所有的数据都能通过变换而使其得到满足,特别是对于混合分布的数据。数据变换是十分重要的工作,变换不当则适得其反。所以,应该在认真研究分析的基础上进行,有时要通过多次试验才能找到合适的变换方法。
4.5相关分析
  相关分析用来分析两个变量之间或两组变量之间的相关性,前者我们称为简单相关分析,后者称为典型相关分析。多变量相关分析的结果往往用相关系数矩阵表示。
4.5.1简单相关分析
  对于任意两个或多个变量之间的相关性,可以用线性相关系数或偏相关系数来表示。此外,相关分析也可以用来分析样本之间的相关关系,分析结果为样本分类提供了辅助信息。具有显著相关的样本,往往可以归为一类。
4.5.1.1线性相关系数
  线性相关系数用一般r表示,例如r1,2表示x1和x2之间的相关系数。相关系数值变化在-1—1之间。相关系数为-1和1时,实际上两个变量之间是直线关系。相关系数为0表示变量之间不相关。
  对于样本数为n的两个变量j,k,相关系数为:
  线性相关系数可能并不能反映变量间的真实关系。某些变量之间可能具有明显的相关关系,但是,线性相关系数可能很小。例如,图4.9中,25个样本的两个变量之间的相关系数为0.1877,不显著。但是,如果我们将各个点连接起来,可以发现变量之间似乎有较强的周期性的关系。
  相关系数在应用时,必须进行显著性检验。对于两个随机变量,如果它们服从二维正态分布,那么可以用自由度为n-2的t分布来检验。检验解与变量的样本数有关。巨量样本,其相关系数较小,但可能很显著,小量样本(例如小于10),其相关系数较高,但可能不显著。
图4.7 变量之间的关系
  所以,为了避免类似的问题,在进行相关分析之间,有必要给出变量的散点图。对于某些非线性关系,可以通过预处理变换为线性,然后进行相关分析,这样结果会更为可靠。4.5.1.2偏相关系数
  在研究地理问题时,往往需要对每一个地理要素的影响进行估计。偏相关系数是确定两要素间或多要素间关系的一种方法。
  决定一个地区究竟种植农作物还是饲养牲畜,受到多种复杂因素的影响。而要知道两个变量间的相关(明显的因果关系)受第三个变量影响的程度往往是较困难的。偏相关是一种处理多个变量相关的方法,在这种方法中,可以在控制其他变量的情况下检验两个变量间的相关性。
  偏相关系数(partial correlation coefficient)的计算公式如下:
  其中,
表示k被控制时i,j之间的偏相关系数。4.5.1.3相关矩阵
  多变量之间的相关系数用相关矩阵表示。由于矩阵中为一对称阵,一般仅表示矩阵的左下角。
表0.1 变量相关的矩阵表示
  样本数=57。黑体的相关系数信度为0.01
  相关分析方法在地理学中有很多成功应用的范例。相关系数的计算很容易,调查数据的获取相对也比较简单。但对于结论的解释,则必须谨慎。
4.6因子分析  成因是地理学研究的根本问题之一。只有通过成因研究才能把地理学从现象的、感性的高度提高到理论的高度。
  地理学还一门有待进一步发展的科学,它的观测手段和推理手段还不是很成熟。利用现有的观测手段,对地理现象和事实的观察在广度上和深度上还未达到足以形成某些重要的地理成因结论的程度;从地理现象到地理成因是一个十分复杂的推理过程,它不仅仅取决于客观的地理事实,而且还取决于人的经验、学识、专业兴趣、哲学思想和当前环境。
  显然,需要发展先进的观测手段,获取更多的数据;需要发展数据解释和分析技术,寻求更科学的推理途径来研究地理成因。
  经过许多地质学家和统计学家的努力,因子分析在地质学中获得了重要的发展。许多因子分析技巧带有浓厚的地质色彩,以至有了“地质因子分析”这一专门术语。到目前为止,对因子分析的补充和改进并没有停止,许多新方法、新思想还在不断出现。因子分析的应用也已取得了不少可喜的成果,特别是对复杂过程、混合过程和叠加过程的识别、解剖和分离方面显示出了它独特的功能。但是,就方法本身而言,因子分析在应用方面仍显得比较薄弱,还没有形成一套成熟的应用流程和取得一套成熟的应用经验。
  在地理学中,目前尚没有形成完整的建模体系。地理建模中的因子分析的内容,更多的来自于地质因子分析。
4.6.2典型问题
  同一种因子分析方法可用来解决完全不同的问题;古生物学家可能用它来研究生态演化,矿床学家可能用它来研究成矿条件,沉积学家则可能用它来研究冰水沉积物的沉积环境……。因此,很难为因子分析的应用划分一个范畴和限定一种格式。即使就同一类型问题而言,由于用数学方法对问题的处理角度不同,也会获得不同特色和风格的应用。下面是一些因子分析的典型问题,它们将启发人们去思考更多类似的命题。
  1.沉积物的粒度分析
  在古环境研究中,粒度分析已成为一个不可缺少的手段。沉积物的粒度特征包含了大量关于搬运环境、搬运历史和水动力学的信息。但是,一般说来,沉积物粒度是多种水流搬运过程的综合产物。通过因子分析,我们有可能找到一些典型的粒度组合,从而据此识别相应的沉积过程的水动力学环境。
  2.古环境与古生态的研究
  在古生物学研究中,古环境与古生态研究是带有高度成因性的课题。但对这二者我们不能直接进行观察,只能利用保留在岩石中的古生物化石组合,用沉积物的地质、物理和化学特征加以推论。在施行因子分析后,可将各种生物化石和沉积物特征被转换成具有生态意义和环境意义的组合。这种组合会大大启发古生物学家去思考诸如古气候、温度、压力、PH值、盐度、水体深度等古环境特征和生物群对这种环境相应的古生态反映。如果这些古代的生物仍生存在今天的海洋里或陆地上,那么借助于对它们生活的现代环境和现代生态特征的研究,用因子分析解释古环境和古生态将会取得更好的效果。
  3.地球化学研究
  从区域地球化学到矿物地球化学,都研究元素在特定地质过程(或环境)中的行为。但多数情况下,从岩石中或从矿物中获得的元素含量,实际上是多个地质过程叠加条件下该元素行为历史的总和,因子分析的任务不仅仅要根据岩石或矿物中各种元素含量间的相互关系来识别一个过程以及在该过程中元素迁移富集的规律,而且在众多过程叠加的情况下,要区分这些过程,并按不同的地质过程将元素总的历史行为进行分解,这显然将为我们提供更为丰富而生动的成因知识。
  同样,利用上述思想,还可以用因子分析将一个样品的元素含量值分解为背景值和异常两部分。背景是一个过程的产物,它同地质历史的过程有关;异常为另一过程的产物,它多与风化等过程相联。在区域内,背景类型比较单一时,用因子分析分离背景和异常效果较好。
4.6.3因子分析模型
4.6.3.1基本思路
  因子分析是一组方法,用它可在一个多元数据集中确定出某些过程。在理想情况下,变量可简化为几个能明确阐明基础数据实际意义的简单变量。因子分析技术表明了量与量之间的关系。
  因子分析的起点是变量之间的相关矩阵。通过分析相关系数矩阵,确定出重要因子及其数目。这些重要因子是相关变量的不同组合,称为公因子或主因子。变量对因子的贡献称为载荷,那些具有高载荷的变量对这些因子的贡献更大,高的负载荷值则贡献相反(负值不表示没有。载荷的概念类似于相关系数)。因子与变量的组合关系就是建立的因子模型。
  对因子分析所揭示的信息,可根据因子载荷确定出相关变量,根据其相互关系解释因子的意义。有些地理关系比较明显,不需要复杂的因子分析,然而许多地理关系是难以捉摸的,不经化简是无法识别的。随着研究对象复杂性的增加,弄清这些难以捉摸的关系变得越来越重要。
4.6.3.2因子模型的形式
  因子模型中,每个变量用一组因子的线性组合来表示。设有m个变量,变量名分别为x1,x2…xm,模型中的因子数为p(p&m),
那么,因子模型的一般表达式是:
  其中,i=1,2,…,m,fp叫公因子(common
factor),其变化影响到所有的变量,ui为特殊因子,其变化仅对特定的变量有影响,aip为因子  载荷(factor
loading)。
  模型假设特殊因子之间,特殊因子与公因子之间彼此独立。
  1)&因子载荷
  如果公因子之间不相关(因子分析的初始解以及方差最大旋转后的因子解),那么因子载荷是变量与因子之间的相关系数,反映了因子对变量的解释能力。
  2)&公因子方差
  公因子方差也叫共同度,或公共方差,表示变量方差被p个公因子的解释比例(或m个变量为p个公因子解释的百分比)。公因子方差的值最大为1,常用百分比表示。例如,对于某变量而言,公因子方差为0.8,表示选中的公因子在总体上表示了该变量总方差的80%。
  3)&因子贡献率
  单个因子对数据的解释能力。它是指定因子解释的方差占总方差的百分比。对于任一因子j,
  在实际工作中,人们更常用的表达式是:
  强调构成因子的变量及变量对因子的影响。此时,因子往往与特定的过程相联系,从而建立了因子与成因的联系。工作中的基本思路是:变量是对现象的度量,样本是现象的采样。现象背后是过程,过程产生了现象。由变量组合产生的因子是不同过程的表现。
4.6.4因子分析常用方法
  常见的因子分析方法包括:主成分分析(principal components)、真因子分析、Imbrie
Q型因子分析、主坐标分析和对应分析。在这些方法中,主成分分析和真因子分析主要研究变量之间的关系,称为R型因子分析。Imbrie
Q型因子和主坐标分析主要研究样本间的关系,称为Q型因子分析,对应分析则同时研究变量与样本间的关系。从地理建模中的成因分析角度出发,这里介绍的只是其中的R型真因子分析。
  真因子分析显示变量之间的关系,与主成分分析的不同之处,在于以相关关系为基础而不是以方差为基础,它只利用某个变量与其它变量相关关系的部分。
  真因子分析方法假设随机干扰是不相关的,它用一些因子来说明变量之间(线性)相关信息,强调因子对变量的解释能力,重点是区别反映基本过程的公因子和反映随机干扰的单因子。方法的关键是寻找拟合变量相关矩阵中非对角元素的“最佳”算法,这种方法也就是所谓的因子提取方法。常用的方法有最小剩余法(Minres),非加权最小二乘法(ULS,unweighted
least squares),广义最小二乘法(GLS,generalized least
squares),最大似然法(ML,maximum likelihood),主轴因子法(principal axis
factoring),alpha因子法(alpha factoring),映象因子法(image
factoring)等,各种方法各有其特点,应用中要进行对比分析后才能确定哪种最合适。
  1)&最小剩余法
  根据因子模型与原始相关矩阵之间残差平方和最小的原则求因子解。
  2)&非加权最小二乘法和广义最小二乘法
  最小二乘法法是基于因子模型计算出的相关系数与原始数据的相关系数之间的离差平方和最小的原则来计算因子解。广义最小二乘法采用相同的原则,但在迭代求解时用特殊因子方差的倒数对相关系数矩阵进行调整。在特殊因子中,变量的方差大,其相关系数给的权重大。
  3)&最大似然法
  类似于最小二乘法。它假设样本来源于多为正态总体,通过构造样本的似然函数,并使得似然函数达到最大来求得因子解。
  4)&主轴因子法
  用公因子的方差代替相关矩阵对角线上的值,通过调整相关矩阵的特征方程求得因子解。在植物生态的定量研究中应用较多。
  5)&Alpha因子法
  该方法认为,变量是潜在的变量空间的采样(1-4方法认为样本是总体空间的采样)。这些变量是通过给定的总体观测到的,因子解应该使提取的公因子和假设存在的公因子间有最大的相关。
  6)&映象因子法
  在这种方法中,变量被分解为两部分,其中的一部分为公共部分,称为映象,另一部分为独有部分,成为反象。公共部分可以用该变量外的其他变量的线性组合预测,独有部分则不能被预测。映象的方差为公因子方差,反象的方差为特殊因子方差。
  因子分析的输入数据可以是任何地理数据。这些数据的每一个都应当是线性无关的,亦即不能是其它变量的线性组合。因子分析要求数据具有相同的测量尺度,符合正态分布,为此,数据通常先要进行标准化变换。
4.6.5工作步骤
  因子分析的基本步骤如下:
  1)选择检验参数;
  2)选择因子提取的方法和公因子数;
  3)选择因子旋转方法;
  4)选择因子得分计算方法。
  因子分析首先计算数据相关系数矩阵或协方差矩阵,并以此为基础计算特征值和特征向量。然后根据因子提取方法计算公因子载荷,进行因子旋转,并最后计算因子得分。分析给出的结果一般应包括:
  1)因子分析适用性检验;
  2)因子贡献率;
  3)因子载荷表和双因子载荷散点图;如果进行了因子旋转,还要给出旋转后的因子载荷表;
  4)因子模型的再造相关矩阵和残差矩阵;
  5)因子得分图。
4.6.5.1因子分析适用性检验
  不是所有的数据都适合使用因子分析。适用性分析常用方法如下。
  1)相关矩阵的显著性检验
  相关系数矩阵反映了单因子之间的关系。如果高度相关的变量或高度不相关的变量在矩阵中占有绝对多数,那么因子分析不合适。对于前者,由于高度相关的存在,少数的几个变量已经能够反映数据中的信息,没有必要再进行因子分析。对于后者,由于绝对多数的高度不相关变量的存在,因子分析无法提供有效的信息。
  2)Bartlett球体检验(Bartlett test of sphericity)
  原假设为相关矩阵是单位矩阵。如果不能拒绝该假设,则因子分析不合适。
  3)KMO测度(Kaiser-Meyer-Olkin measure of sampling adequacy)
该值值在(0,1)之间变化。一般认为,0.7以上适合因子分析,小于0.5以下则不适合,介于二者之间的为比较适用。
  4)&反像相关矩阵(anti-image correlation matrix)
  矩阵内的值为负的偏相关系数。如果其中比较大的值较多,那么数据可能不适合因子分析。或者可以认为,系数值较大的变量之间的关系在因子模型中无法得到较好的反映。
4.6.5.2公因子数选取方法  公因子数的选取在很多情况下带有经验性。当前常用的主要有两种方法:1)根据特征值进行选取,一般特征值大于1对应的数目为所选的公因子数。2)根据方差变化选取。将特征值累加,求和,然后计算各个累加后的特征值占总和的百分比,称为方差累积贡献率。该比例反映了选取的公因子数量对总体信息的表现能力,一般取80%以上。
4.6.5.3因子旋转方法
  旋转的目的是使因子的载荷尽可能的集中在少数几个因子上,以便于进行解释。不同的旋转方法侧重点不同,没有最优的方法。具体哪种方法比较合适,要通过对比分析来确定。主要有两类:
  1)正交旋转,旋转后的因子之间不相关。包括:(1)方差最大旋转(varimax),旋转后,每个因子包括了方差最大的变量,可以简化因子的解释。该方法实际上是原始因子载荷矩阵中每列方差的最大化,即每个因子上具有最高载荷的变量数最少,是最常用的方法。(2)四次最大旋转(quartimax),它与方差最大法类似,不同在于该方法是原始因子载荷矩阵中每行方差的最大化,即每个变量中需要解释的因子最少,可以简化变量的解释。(3)等量最大旋转(equamax),方差最大旋转,相当于前面两种方法的加权混合,该方法是原始因子载荷矩阵中每行和列方差的最大化。
  2)斜交旋转,旋转后各个因子之间具有一定的相关性,因子的解释更为自然一些。常用方法有直接最小倾斜旋转(direct
oblimin)和斜主因子旋转(promax)。
4.6.5.4因子的解释能力  由因子分析产生的因子模型无法反映原始数据中的全部信息,所以我们需要了解所建立的模型对变量关系的解释能力。常用的方法有两个。
  1)再造的(reproduced)相关系数矩阵及其与原始相关系数的差值矩阵
  再造的相关系数矩阵反映了因子模型中变量的相关信息。残差矩阵反映了模型对原始数据中相关信息的再现能力,矩阵中的值越小,表明与原始信息的差异越小。在残差矩阵中,系数值较大的变量之间的关系在因子模型中没有得到较好的反映。
  2)因子贡献率
  贡献率越高,包括的数据中的信息越多,对数据的解释能力越强。贡献率往往与因子载荷同时使用。高贡献率的因子中,具有高因子载荷值的变量被解释的程度高。
4.6.5.5因子得分  样本因子得分的假设是,样本是若干项的线性加和,这些项代表了某些相互作用或过程。
  因子得分一般使用回归方法求得,其均值为0,方差等于估计因子得分与实际因子得分之间的多元相关系数的平方。由假设可知,因子得分反映了选择的公因子对样本的混合影响。对于特定的样本而言,样本的得分可以帮助您分析影响该样本的主要成因过程和次要成因过程。
  如果公因子之间是相关性的(使用斜交旋转),那么,可以利用因子得分再进行因子分析。此外,由于正交旋转消除了公因子之间的相关性,正交旋转的因子得分也常用作回归分析和分类用的数据。
  对于空间数据而言,可以通过绘制不同因子得分的等值线图来表现不同过程在空间上的变化,并借此判断因子含义解释的合理性。
4.6.5.6应注意的问题
  由于在因子分析中存在着客观的计算结果同地理学家的主观思维之间交互影响这一特点,在使用因子分析方法时又必须特别慎重,以免误用。
  首先,因子分析的计算结果只能看作是一个中间结果,它仅仅完成了分析的第一步,剩余的部分需要人们使用自己的思维来完成。
  其次,因子分析所采用的主要是一套坐标旋转、空间变换的技术,其目的在于选择若干个观察地理数据的“最好方向”,以便在这几个方向上,最清楚地识别出地理数据所展示的成因意义。
  第三,在因子分析中,非常强调“关联”的意义。
  只有在深刻地认识了上述三个基本特点之后,一些具体的因子分析解释技巧才是有用的。因子解释实际上是一个数学方法与地理学相结合的过程。
  由于因子分析是一个客观计算结果同主观思维交互作用的过程,这意味着:第一,客观的计算结果需要经过主观加工才能形成地理概念;第二,当客观计算结果对形成概念来说信息不足时,需要从主观上加以补充。于是就可能产生两类错误:推论的错误和主观补充信息的错误。
4.6.6应用实例
  下面是使用SPSS软件对化学组成数据进行因子分析得到的结果。
  数据来源:某黄土剖面,共有61个样品,其中30个采于黄土层,31个采于古土壤层。分析指标包括SiO2,Al2O3,FE(包括FeO和Fe2O3),CaO,MgO,Na2O,K2O,P2O5,TiO2,MnO,CaCO3。
  检验参数,KMO=0.6,Bartlett球体检验显著,表明数据比较适用于因子分析。
  以特征值大于1为标准,最后取3个公因子。公因子提取使用广义最小二乘法,因子旋转使用方差最大方法,因子得分使用回归方法计算。
  1.&方差贡献率
  三个公因子的累计贡献率为68.6%,即因子模型反映了原始数据总方差的68.6%,可以认为包括了原始数据的主要信息。
  2.&再造相关矩阵和残差矩阵
  表 4.2是再造相关矩阵(Reproduced
correlation)和残差矩阵(Residual)。从残差矩阵中可以看出,CaCO3-P2O5,CaCO3-SiO2,CaCO3-Al2O3,SiO2-P2O5,MgO-P2O5具有较高的值,这些变量之间关系的信息在因子模型中损失较多。
表 0.2 再造相关矩阵和残差矩阵
  3.因子载荷
  从表0.3来看,选择三个公因子时,共反映了总方差的68.6%。其中,以第一个因子最为重要,反映了总方差的39%。因子载荷表中的公因子方差表明,Na2O,MgO,P2O5,CaCO3的公因子方差低于60%,在所选择的因子模型中信息损失较多,这些变量可以认为是孤立变量。模型较好的反映了数据中的SiO2,Al2O3,FE,CaO,K2O,TiO2,MnO的信息。
表0.3 因子载荷
表 0.4 方差最大旋转后的因子载荷
  在因子的构成中,与第一个因子最为密切的关联变量主要是(Al2O3,FE,K2O,TiO2,-CaO,-CaCO3),其中,-是载荷表中系数的符号,表示变量与因子是负相关的。从风化角度看,随着风化的加强,Al2O3,FE是增加的,K2O是黄土中伊利石的主要成分,TiO2则是不易风化的锆石的主要组成,随风化进行而积累。同时,风化中CaCO3是淋失的。所以,第一个因子反映了黄土的风化程度。
  与第二个因子密切相关的变量主要是(CaO,CaCO3,SiO2),已经有实验表明,黄土中的SiO2-CaO的关系主要是由于数据的闭合引起的
,是一种虚假的关系。
  与第三个因子密切相关的变量主要是(MnO,
FE)。MnO和FE的同时出现,似乎反映了铁锰的共生性,该因子与黄土中的氧化和还原过程有关。
  方差最大旋转后的因子载荷与原始载荷相比,除了第二个因子的符号相反外,更好的表现了数据具有的地球化学特征。下面是因子F1-F3的载荷的散点图,反映了两个因子共同表现的变量之间的关系。风化成土过程和氧化还原过程是黄土中存在的两个主要的化学过程。
图4.13 因子载荷图
  3.&因子得分计算系数矩阵
  利用回归分析方法确定了因子的分的计算系数矩阵(表见下页)。
  4.&因子得分图
根据计算的因子得分,绘制了因子得分图。考虑到黄土剖面是自上而下的,这里的因子得分图使用了垂直的方式。
4.6.7因子分析的应用  因子分析在地理学中的应用主要有:
  1)进行数据降维(Data reduction)
图0.10 因子得分图
表 0.5 因子得分计算系数矩阵
  在搜集数据时希望尽可能地多,而在分析、综合数据时又希望尽可能地少。因子分析恰恰提供了一条科学的、逻辑的途径,能把原始数据在数量上大大精简,以利于进行综合分析。
  由此可见,因子分析的第一个作用是在不损失成因信息的前提下尽可能地压缩原始数据的规模,以减轻地理人员综合分析的负担。
  2)指示成因推理的方向
  因子分析将能够把庞杂纷乱的原始地质数据按成因上的联系进行归纳、整理、精炼和分类,理出几条比较客观的成因线索,这就提供了逻辑推理的方向,启发人们去思考相应的成因结论。&&
  3)分解叠加的过程&
  我们现在所看到的现象往往是多种成因过程叠加的产物,既有时间上不同过程的叠加,又有空间上不同过程的叠加,各个过程互相干扰,互相掩盖,使得每个独立过程的特征都面目不清,造成了成因研究的复杂化。
  在地理模型构建中,因子分析的主要目的是:
  1)形成科学的成因假设
  当研究对象的研究程度较差、成因的概念还很模糊的情况下,因子分析的结论将活跃研究者的思维,启发他们产生地理成因概念,但这种概念有待进一步工作的验证。
  2)检验已有的成因观点当对象的地理研究程度较高,已出现一种或若干种地理成因模式的情况下,因子分析的结论可以旁证研究者的成因观点是否合理,并帮助他修订出更合理的成因模式。但修正后的成因模式仍需内进一步的工作予以确证。
  3)确立地理成因模式
  当因子分析所提出的地理成因模式已被其他更可靠的宜接手段所确证时,则可将该模式确立为一个适于使用的成因模式。这时对因子分析的结果已不是地理假设,而是地理结论,可用这个因子模型来解释有关的地理问题。
4.7回归分析  回归分析研究一个随机变量与多个变量之间线性关系,检验解释变量的显著程度并比较其作用的大小,进而用两个或多个变量的变化解释和预测因变量的变化。回归分析中解释变量和因变量之间的关系可能只是统计关系,解释变量影响因变量的中间环节是未知的,往往无法具体确定。
  两个变量之间关系的直观表示是变量之间的散点图。如果一个变量对另一个变量进行回归,则可计算出一个以数学形式表示的两个变量之间关系的回归方程。根据回归方程,可以用一个变量预测另一个变量。如果由回归方程所确定的回归直线与所标绘的数据点比较符合,则此回归方程就是良好的预测公式。然而,不管符合的程度如何,总可以计算出一个回归方程。为了检验回归线的拟合度,需要计算出所有数据点与回归直线偏差平方和,此值越小,表示回归方程的符合程度越好。回归所得结果永远是以所输入的数据为基础的,而不管实际上是否存在可接受的相关关系。
  回归分析中,因变量的测量尺度至少是间隔尺度,解释变量的测量尺度至少要与因变量相对应。对于名义尺度和次序尺度的变量,需要使用虚拟变量的方法进行回归分析。
4.7.1回归分析模型和随机干扰项的意义
4.7.1.1回归分析模型
  回归分析的基本模型是:
  回归方法的关键是针对不同测量尺度的数据,寻找m个解释变量的最优组合,使得随机干扰项最小。回归方程中的系数应该是稳定的、显著的,包括的变量应该尽可能的少。
4.7.1.2随机干扰项的意义
  随机干扰项,又称残差或误差,当回归方程确定时,它是因变量回归结果与与原始值的差。
  在回归模型中,随机干扰项不是无意义的。干扰项被认为是从模型中省略下来的而又集体的影响着Y的其他变量的替代物。为什么不把所有的变量都引入到模型中?理由是多方面的。
  1.理论的含糊性
  即使有决定Y的行为理论,也常常是不完全的。有什么影响Y不是无所知就是知而不确。所以可以用干扰项来代替这些未知变量的影响。
  2.数据的欠缺
  有时候不得不忽视一些变量,因为得不到想要的数据。
  3.核心变量与周边变量
  有些解释变量的综合影响对因变量很弱,将它们引入到模型中经济上不合算,所以,将这种影响作为随机项来考虑。
  4.人类行为的内在随机性
  即使引入了所有的变量,但是在个别的因变量中仍不免有一些内在的随机性,无论怎么努力都无法解释。干扰项反映了这种随机性。
  5.替代变量问题
  回归模型中假定所有的值都被准确地观测,但是实际上数据是存在误差的。这些误差影响着模型的形式。干扰项可以代表这种误差。
  6.简约性原则
  提出的模型应该尽可能的简单。如果理论的完善或查实的程度还没有达到足以提出可包含进来的其他变量,就没有必要引进更多的变量。当然,不应该为了简单而排除重要的变量。
  7.错误的函数形式
  我们不知道因变量与解释变量之间确切的函数形式是什么。从散点图上可以估计两个变量之间的函数形式。但是,无法想象出一个多维的散点图,也就不容易决定出适当的函数形式。
4.7.2回归分析的步骤和内容
4.7.2.1步骤
  回归分析的主要步骤是:
  1)根据数据的测量尺度和目的选择适当的回归方法;
  2)选择解释变量和因变量;
  3)进行计算;
  4)结果分析和检验;
  5)模型对比和确认。
4.7.2.2回归分析的内容。
  回归分析包括的内容有:1)回归方程;2)方程的检验;3)方程确认;4)方程比较。
  1.&回归方程
  回归方程中,应该包括原始数据的回归系数和各回归系数的t检验值,后者可以帮助分析每个系数的显著性。
  回归方程计算结果与原始因变量值的差为残差。
  2.&回归方程检验
  1)相关系数
  相关系数表明了因变量和所有解释变量的关系,绝对值越大越好。但是,对于过高的相关系数(接近于1),要考虑是否为真实的问题。
  复相关系数R,说明Y与解释变量之间的线性相关程度。
  确定系数R2(coefficient of
determination),复相关系数的平方,说明方程对Y的解释能力。该系数乘以100%,表示回归方程解释Y变化的百分比。
  调整的确定系数aR2(adjusted R
square),类似于确定系数,但不受样本数和变量数的影响,在多模型对比时很有用。
  5)&方程显著性检验
  F检验值,用来检验回归方程的显著性,越大越好。
  信度p,回归方程的显著性水平,越小越显著。
  6)&回归系数的显著性检验
包  括t检验值和相应的信度(SIG
T)。变量t检验的显著性水平越高(信度值越低),表明它对Y的影响越大。据此可以剔除不显著的变量,然后再进行回归分析。
  7)&其他检验
  标准化残差的正态分布检验,通过概率图来进行。好的回归模型中,该残差应该为正态分布。
  因变量与解释变量的线性关系检验和方差齐性检验(参后面最小二乘法假设的第四点)。通过因变量的标准化预测值(Std.
predicted value, 在SPSS中为ZPRED)-标准化误差(Std.
residual,在SPSS中为ZRESID,该值等于原始值-标准化预测值)的xy散点图检验因变量的方差齐性,通过解释变量值-因变量残差值的散点图检验对于解释变量的方差齐性。对于线性关系,散点图应无明显的变化趋势。如果干扰项的方差相等(满足方差齐性要求),那么对于不同的预测值,残差变化应大致相同,即从Y轴(残差)为0处作平行于X轴的直线,看散点在该直线两侧的分布是否比较均匀,如果不均匀,而且差异较大,则不满足方差齐性要求。对于方差齐性不满足的情况,应考虑使用加权回归分析方法。
  解释变量对Y的影响检验。使用解释变量-因变量偏相关残差图(partial
plot)方法。它表明的是在控制其他解释变量不变时,当前解释变量与Y的关系。如果散点图有明显的线性趋势,那么,该变量保留在方程中。否则,就应该考虑从方程中去除该变量,或进行线性变换。
  序列自相关检验。使用DW系数(Durbin-Watson)检验误差项之间是否存在相关性。根据给出的DW值进行显著性检验。如果DW值在2附近,可以认为是不相关的。
  共线性(collinearity)检验。使用容限(tolerance),方差膨胀因子(variance inflation
VIF)。这是两个相对的指标,与每个解释变量相对应。对于正态分布的数据,容限越大,表明解释变量的独立信息越多,共线性越弱。一般认为,容限小于0.1即存在共线性。膨胀因子偏回归系数的方差由于共线性而扩大的倍数,该值越小,表明共线性越弱。
  3.&方程确认
  如果回归分析的假设条件满足,那么回归结果可以外延,其推断和预测具有较高的精度。
  1)误差分析。分析统计回归结果的绝对误差、相对误差、最大误差和最小误差,确定方程的可用性。
  2)收集新的数据,检查方程的稳定性和预报能力。
  3)如果收集新的数据有困难,可将已有数据随机分为两部分,一部分用来建立回归模型(作为原始数据),一部分用来进行模型确认检查(作为新数据)。重复几次,直到能够确认模型的稳定性。
  模型的预报能力,可以使用下面的统计量均方预报误差(mean squared predication residual,
MSPR)来检查。
  在这里,n’是数据的样本数,y是原始数据,y’是回归方程得出的预测值。如果数据分为两组,一组用于建立回归方程,一组用于方程检验,那么y是用于检验的数据,n’是其样本数,y’是根据回归方程使用检验数据得出的预测值。
  4.&回归模型的比较
  使用不同的回归方法建立了不同的回归方程后,需要利用选择准则来评价方程的优劣。下面的是几个常用的准则。
  1)&残差平方和
  残差平方和最小是回归分析所追求的一个目标。残差平方和有两种缩写:SSE(sum of squared
residuals)或RSS(residual sums of
squares),统计学专业书中偏于使用前者,而统计应用书包括遥感和地理信息系统中多使用后者。我们这里也使用RSS,其定义为:
  对于不同的回归方程,总是优先选择具有最小RSS的方程。
  2)&赤池信息准则
  赤池信息准则(Akaike Information
Criterion,缩写为AIC)是样本外预测误差方差的有效估计量,由于考虑了自由度的影响,也常用于预测方程的选择。AIC的公式为:
  工作中总是选择具有较小AIC的模型。
  3)&施瓦茨信息准则
  施瓦茨信息准则(SIC)与AIC类似,计算公式为:
  同样,工作中总是选择具有较小SIC的模型。
  RSS与AIC,SIC的差异在于,RSS没有考虑变量数目m对回归模型的影响。如果将RSS除以n-m,那么其结果就可以与AIC和SIC作对比。相对而言,SIC对模型中变量的数目最为敏感。
4.7.3常用回归分析方法  回归分析是个较大的方法体系。根据变量之间的关系是否明确,可以分为参数回归和非参数回归方法,前者依赖于相关分析,后者主要是进行数据预测。在参数回归中,根据所求的方程是否为线性,分为线性回归和非线性回归。线性回归由于关系容易解释,是常用的回归方法。在线性回归中,如果因变量是数值型的,根据回归方程的求解方法,可以分为1)多元线性回归,使用普通最小二乘法求解;2)岭回归,使用改进的最小二乘法求解,用于处理回归系数与实际不符合的情况;3)稳健回归,使用改进的最小二乘法求解,用于处理包括异常值的样本数据;4)加权回归(WLS);5)二段最小平方回归等;如果因变量的取值比较特殊,可以分为1)逻辑回归,因变量的取值为0或1;2)概率回归,因变量取值为[0,1]之间的概率值。
图0.10 回归分析方法
4.7.4线性回归  多元线性回归分析是常用的分析方法,回归方程的求解使用普通最小二乘法(OLS),并要求随机干扰项服从正态分布。如果方程中包括了所有的解释变量,该方法称为多元回归;如果通过F检验去除了不显著的变量,该方法称为逐步回归分析。
  多元线性回归分析的一般表达式为:
  其中,y为因变量,x为解释变量,m为变量的个数,ε为随机干扰项。如果是逐步回归,那么进入方程的变量个数可能小于m。
4.7.5最小二乘法的基本假设  在经典的线性回归模型中,除了因变量必须服从正态分布外,最小二乘法有如下10个基本假设。在回归分析之前或回归分析之后,必须对这些假设进行检验。
  1.&线性回归模型
  回归模型对参数而言是线性的。也就是说,回归模型中,参数具有一次方的形式。例如,y=c0+c1x1和y=c0+c1x12均符合该要求。
  2.&在重复抽样中X固定
  假定X是非随机的,取值是固定的。
  3.&干扰项的均值为0
  对于给定的X,其随机干扰的均值为0,即干扰对Y的平均影响为0。
  4.干扰项的方差相等
  给定X,对所有的观测,干扰项的方差相同。在回归分析中,对它的检验称为方差齐性检验或均方差检验。另外一种表述是,因变量的方差对所有的解释变量的值是相同的。该假设可以通过预测值-残差或变量值-残差的散点图来进行检查。
  5.干扰项之间不相关
  对于任意给定的两个不同的解释变量,其干扰项之间的相关为0。也就是说,观测值(样本)中无序列相关或自相关。对于兼具有时间序列特征的数据,更要进行该检验。如果该要求不满足,可以尝试使用二段最小平方法进行回归分析。
  6.干扰项与X的协方差为0
  干扰项与解释变量X不相关。如果该假设不成立,那么估计的参数不是无偏和一致的。导致这一问题的原因可能是解释变量中存在测量误差,解决的方法是使用工具变量
  7.样本数大于待估的参数个数
  另外一种说法是,样本数必须大于变量的个数。更严格的要求是,样本数是变量数的5-10倍以上。
  8.X必须有变异性
  X值不能完全相同,解释变量的值必须有变化。
  9.正确地设定了回归模型
  回归模型应该没有偏误。即:模型的函数形式正确,没有漏掉重要的解释变量,没有错误的假设。
  如果一个应当被包含的变量没有被包含,则损失就是无偏性和一致性。模型包括一个或多个不相干的变量,损失的是有效性。如果样本不多,失去有效性的问题就比较严重。
  一般来说,模型形式的选择是对偏误和有效作权衡。如果目标是进行准确的预测,极小化平均误差平方和是合理的,因为它同时包括了有效性和偏误。因此,可以在一定的时间范围内,对每一个备选模型进行估计,然后比较其平均误差平方和。
  单个变量的对于模型是否是不相干的,可以使用标准的t检验来检查。检验结果高度显著的,应该保留在模型中。不显著的,则要根据其他的信息判断是否需要从方程中剔除。
  10.没有完全的多重共线性
  解释变量之间没有完全的线性关系,也就是说,解释变量之间的相关性不甚显著。
4.7.6多元线性回归分析实例
  下面是利用SPSS得出的某地区年均降水量、年均气温与年均粮食产量的多元线性回归分析结果和对结果的简要解释。
模型总结表给出了模型检验的总体情况,包括几个常用的相关系数值,F检验结果等。
  从表中可以看出,回归方程总体显著性水平高,信度为0.000,可以解释91.5%的粮食产量数据中的方差。根据统计表和DW值
,对DW值进行检验,表明在0.05显著性水平上,序列无自相关。
  系数表给出了回归方程中的各个回归系数值和t检验的结果。
  各个解释变量的t检验表明,回归系数显著。共线性参数检验表明,方程无共线性。从标准化回归系数看,年均气温对粮食产量的影响更大。
  概率图表明,随机干扰项(残差)基本上符合正态分布的要求
  因变量的标准化预测值-标准化误差的散点图表明回归方程的线性关系明显,假如不考虑图中最右侧的点,可以看出,数据点基本上均匀分布在y=0的上下两侧,可以认为基本符合方差齐性要求。最右侧的点表明,数据中可能存在一个异常值。
  在控制其他变量后,年均气温与粮食产量的线性关系明显。
  在控制其他变量后,粮食产量与年均降水量的线性关系较明显。
  综合上述分析,表明得到的回归方程可以满足回归分析假设的要求。最后的回归分析方程为:
4.7.7其他回归方法简介  回归分析包括了多种方法,下面是其他几种常用的方法。
  1.逐步回归(stepwise regression)
  逐步回归是多元线性回归的一种,基本思路是:根据各个解释变量对因变量方差贡献的大小,每次从尚未进入回归方程的自变量中选择方差贡献最大而且达到一定显著水平的变量引入方程,同时计算引入改变量后原方程中的各个变量对因变量的方差贡献,把那些由于新变量引入而对因变量的方差贡献变得不显著的变量从方程中剔除掉,然后建立新的回归方程。
  通过逐步引入新的方差贡献显著的变量,逐步剔除不显著的变量,从而保证回归方程中始终只保留对因变量方差贡献显著的解释变量。这种筛选过程一直进行到所有可供选择的变量中再也没有对因变量方差贡献显著的变量可以引入,再也没有对因变量方差贡献不显著的变量需要剔除为止。
  逐步回归分析建立的回归方程就是一般的回归方程,与多元线性回归不同的是,它的解释变量都已通过统计检验,在一定的置信水平下保证所有的回归系数的总体均值都不为0。所以,逐步回归分析建立的方程也称为最优方程。
  在进行逐步回归之前,需要指定解释变量进入方程和从方程中剔除变量的信度或F值。由于F值不太容易确定,一般使用信度值。进入方程的信度多取0.05,从方程中剔除的信度多取0.1。另外,逐步回归中,回归方程中变量进入或剔除的顺序反映了解释变量对因变量的影响强度,可以帮助分析解释变量对因变量的影响层次。
  2.逻辑回归(logistic regression)
  有时候,因变量的取值只有两个:有/无,或者是/否(0/1),这时,多元回归方法不再适用。对于这种因变量为分类值(测量尺度为次序尺度)的数据,需要使用逻辑回归分析方法。逻辑回归方法能保证回归结果的值不会出现分数,同时具有一些特殊的性质
类似地,如果因变量是概率值,那么应该使用概率回归分析(probit regression)方法。
  3.积分回归
  有时候,需要考虑一个解释变量不同时段的取值对因变量的影响。
  4.岭回归(ridge regression)
  岭回归分析就是对最小二乘法的一种改进。
  岭回归分析,是要寻找合适的K值,减少估计的均方误差。K值的选择有如下两种方法:
  1)选择较小的K值,使回归方程不再具有不合理的回归系数符号或系数值。
  2)绘制解释变量的岭迹图,找出一个K值,使岭迹变化比较稳定。
  岭迹图是岭回归中均方误差与K值的关系图。下图中,随K变化均方误差很快就趋近于0的变量可以删除(x2),变化方向相反的变量可以合并(x3,x4)。如果岭迹变化无规律,则表明岭回归分析不适用。
图0.13 岭迹变化图
  SPSS中,岭回归分析以宏的方式提供。新建Syntax窗口,输入下列内容:
  ridgereg DEP=蚁蝗 /ENTER=海拔高度 坡向 坡度 总盖度 牧草 毒杂草.
  其中,DEP后面是因变量名称,ENTER后面是解释变量名称,各变量之间用空格分开。
  SPSS中的岭回归分析要求数据为对称的相关系数矩阵。打开矩阵后,运行宏命令,可以得到下面的结果和对应的岭迹图。从岭迹图中可以看到,k=0.6的岭迹变化比较平稳,所以,可以取k=0.6来建立岭回归方程,对应的系数即标准化的回归系数。
图0.14 实际岭回归分析中的岭迹图
  5.稳健回归(robust regression)
  造成最小二乘法估计不好的一个原因是数据中混有异常值,即该观测值与其他的观测值不是来自于同一分布模型(样本数据的分布不是单一的正态分布,而是多种分布的混合)。在很多情况下,无法直接判定哪些样本为异常样本。稳健回归对于这种问题提供了一种解决方法。
  6.加权回归(weight estimation)
  在普通最小二乘法中,要求样本的方差为常数(方差齐性),即各个样本值对计算过程具有相同的贡献。如果某些样本值的变异较大,就无法使用最小二乘法。假如这些样本值的变异可以通过其它变量进行预测,就可以使用加权最小二乘法进行回归分析(WLS)。
加权回归是在回归计算中对不同的样本值给不同的权值,变异性小的样本值给的权值大,变异性大的给的权值小。
  加权回归中,加权变量只有一个,它可以是回归方程中的解释变量,也可以不是。加权回归的关键是确定加权变量,确定的原则是选择的加权变量应该与因变量的变异有明显的关系。
  完成加权回归后,同样要进行参数的检验。特别地,要与OLS的结果进行对比,以确定回归效果是否得到了改善。
  7.二段最小平方法(2-stage least squares)
  如果序列存在有相关性,则可以考虑使用这种回归分析方法。
  导致序列存在相关的原因被认为是有些变量没有包括在模型中,或解释变量与因变量之间存在反馈联系。在这种方法中,随其它变量(不包括在解释变量列表中)的变化而变化的解释变量称为内生变量,该变量往往与因变量间具有反馈联系。方法的关键是寻找与内生变量高度相关的工具变量
  8.最优尺度回归(optimal scaling)
  如果解释变量和因变量是分类变量(测量尺度为名义的或次序的),那么应该选择最优尺度回归方法。这种方法按比例转换名义、次序尺度和数值类型的变量,并通过使用非线性转换,以求得最佳的方程。
  9.多项式回归
  如果因变量与解释变量之间的关系是非线性的,就应该使用非线性回归。除了曲线拟合外,经常使用的非线性回归是多项式回归。
  对于单个解释变量,t阶多项式回归的模型形式为:
  非线性回归较为复杂,而且对于多变量而言,解释比较困难。所示,在实际的工作中,一般是先使用散点图来确定解释变量与因变量之间的非线性关系,然后通过曲线化直方法将其转换为直线关系后再进行线性回归分析。
  10.非参数回归分析
  在实际应用中,许多的变量之间的关系未必是线性的或可线性化的非线性关系,而变量之间的参数非线性关系又很难确定。传统的回归模型中,如果模型的假设与实际相背离,很容易造成模型设定误差,由此作出的预测可能很差。非参数回归分析是近30年来发展起来的新方法,其中回归方程的形式可以是任意的,没有任何约束,解释变量和因变量的分布也很少有限制。非参数回归分析不考虑解释变量与因变量之间的相关关系,而是通过拟合方法,确定二者之间的关系表达式,并用该关系式进行预测,因此具有更大的适应性。
4.8复杂数据分析的一些问题
  地理建模使用的数据,实际上是复杂数据,它涉及到如下的一些问题,需要根据实际情况加以解决。
4.8.1多因子问题
  分析中使用的因子是否构成了描述研究对象的全部,人们不能十分肯定。通常只能尽量多列出一些可能有影响的因子,然后通过数据处理,考察和筛选出影响较大的,删去影响不大的,从而建立数据模型。因子的筛选,是一个难题。
4.8.2非线性问题
  经典统计主要处理线性关系。但是,在地理学中,要素之间的关系大多是非线性关系(或不是直接的线性关系)。经典统计学家强调统计数学中线性关系的重要性。因为只有存在线性关系,而且噪声极小时,才能用严格的数学方法找出数学模型。如果去掉“线性”假设,即认定关系可以是非线性的,又不对函数形式作出假定,则可从有限个数据中可以总结或拟合出多个数学模型。在多维空间中有限点代表有限个样本(即已知数据),可有无限多个曲线和曲面能同时通过这有限个点,这为确定模型带来了困难。
  线性假定虽好,但客观上许多数据并不存在线性关系。对非线性的数据,可用模式识别、非线性回归或人工神经网络找规律。在这些方法中,实际上隐含了对非线性关系的限定。例如:模式识别方法假设两类样本较简单的聚类关系(例如:投影后两类点分布在不同区域);非线性回归假定一定的函数形式(例如:只包括平方或立方项的多项式);人工神经网络假定函数为Sigmoid等。但这些先验的假定也难免为计算结果带来某些局限性。
4.8.3噪声问题
  噪声干扰使目标值或自变量失真,噪声可能是“白噪声”或“有色噪声”。许多地理现象是复杂现象,对多种因素(包括外在因素)都较敏感。更由于缺乏严格的从“原理”出发的理论,很难确定究竟有多少影响因素与目标值有关。因此,当只采用有限自变量描述对象时,那些被忽视的因素就成为噪声。
  在人文地理学研究中不确定因素更是普遍存在。一些指标的波动是难免的,并且不可预测。所获得的数据具有人为性,这就使整个数据始终存在某种噪声。严格说来,单凭数学手段我们无法区别噪声和客观规律引起的变化。统计数学上判断“离群点”(奇异点,异常点,outlier)的方法,或基于线性假设,或采用曲线或曲面“平滑化”(smoothing)的原则。但这将导致数据精度的损失。
  噪声干扰还可能带来另一种不良后果:利用数据集建模,原则上应取拟合度最佳的数学模型。但由于噪声于扰,拟合度最佳的标准可能导致失误,噪声干扰可能使真正有效的数学模型反而比“假”模型拟合度差些。用预报结果检验可能会甄别此类问题,对照过程或对象的相关特性将有助于作出正确的判断。
4.8.4非正态分布问题
  正态分布适合于描述多种微小随机因素叠加影响的数据。许多地理数据的分布不一定符合此条件,故地理方面的数据处理,往往不能以服从正态分布为前提。这就带来了两个问题。1)如果使用需要正态分布假设的方法来处理这些非正态分布数据,其结果的稳定性无法预料,这是方法的误用。2)如果不使用这些方法,那么,大量数据中含有的信息就较难提取。地理学目前还缺乏自己独有的方法体系。因此,进行数据处理前,往往需要对数据的分布进行分析,数据必须满足处理方法的假设要求。如果不满足,必须评价这种不满足对结果产生的影响。
4.8.5数据样本点分布不均匀问题
  数据信息采掘要求数据类分布比较均匀。比如说要查明0℃至100℃的温度变化的影响,最好从0℃至100C每隔10℃测一个数据,而且最好在维持其他因素不变的条件下进行,但事实上多数情况这一要求无法满足。而且,在某些情况下,数据记录往往集中在某一区域,而其他区域数据点很少,这种情况无论是在回归还是人工神经网络拟合中,都导致对数据集中区域考虑较多,而对数据稀疏区考虑较少,使产生的数学模型对数据稀疏区拟合或预报误差很大。
4.8.6复杂数据处理的对策
  上述五个问题或多或少的存在,给地理复杂数据建模带来很大的困难,为克服困难,下述原则和对策可供参考。
  1.数据处理与专业知识相结合
  非线性、高噪声给复杂数据建模带来不确定性。对有限点做非线性拟合有很多种拟合方法(很多种模型),但其中多数没有物理意义,而且由于噪声干扰,拟合最佳的未必是“真”模型。因此,数据处理必须由熟悉专业、熟悉实际课题的要求、熟悉研究对象或野外现场实际情况的科技人员来进行,这样才能保证数据准备、自变量筛选和建模都能切合实际。
  2.建模与复证相结合
  当数据样本不够或结果有疑问时,可通过更多的数据检验其规律性,以增加结论的可靠性,去除噪声的影响。
  3.多种计算方法并用相互印证
  各种数据处理方法都有其局限性,宜根据“先粗后细”的原则将各种算法结合起来。一般而言,可先作“单因子分析”、“双因子分析”,即先将样本按目标值分为1、2两类,用目标值为纵坐标,每个自变量为横坐标并显示其相关系数(单因子分析),然后每次取两个自变量为坐标作1、2类样本分布图,并显示两个自变量间的相关系数(双因子分析)。在数据点足够多时可截取有兴趣部位的子空间考查数据结构。在完成上述工作并取得若干信息后,即可用各种模式识别方法作多因子分析,但仍以考查分类为主。
  4.减少噪声干扰
  1)为减少噪声干扰,可把“中间值”的样本删去,以突出对比度,淡化噪声的影响。在实践中有几种方法:一是将指定的“中间段”样本删除,二是将指定的中间段定义为0类,三是将指定的中间段定义为3类(假设数据只有两类),均可在不同程度上达到此目的。
  2)运用KNN法原理,将近邻多半为异类的样本删除,或将与各近邻平均值相差特别大的样本删除。在一般的分析中,就是剔除异常点。要特别注意的是,异常点可能是噪声,也可能代表了特别的信息,要根据专业知识进行区别。
  3)有时数据集为近线性,可利用偏回归分析来滤去部分噪声。
  4)有时噪声主要由某些自变量引起,删除这些自变量能减少噪声。
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

我要回帖

更多关于 相关性分析相关系数 的文章

 

随机推荐