作为数据去噪简化的一种方法咜对处理大多数现代生物数据很有帮助。在这些数据集中经常存在着为单个样本同时收集数百甚至数百万个测量值的情况。
由于“维度災难”(curse of dimensionality)的存在很多统计方法难以应用到高维数据上。虽然收集到的数据点很多但是它们会散布在一个庞大的、几乎不可能进行彻底探索的高维空间中。
通过降低数据的维度你可以把这个复杂棘手的问题变得简单轻松。除去噪音但保存了所关注信息的低维度数据对理解其隐含的结构和模式很有帮助。原始的高维度数据通常包含了许多无关或冗余变量的观测值降维可以被看作是一种潜在特征提取的方法。它也经常用于数据压缩、数据探索以及数据可视化
虽然在标准的数据分析流程中已经开发并实现了许多降维方法,但它们很容易被誤用并且其结果在实践中也常被误解。
本文为从业者提供了一套有用的指南指导其如何正确进行降维,解释其输出并传达结果
技巧1:选择一个合适的方法
当你想从现有的降维方法中选择一种进行分析时,可用的降维方法的数量似乎令人生畏事实上,你不必拘泥于一種方法;但是你应该意识到哪些方法适合你当前的工作。
降维方法的选择取决于输入数据的性质比如说,对于连续数据、分类数据、计數数据、距离数据它们会需要用到不同的降维方法。你也应该用你的直觉和相关的领域知识来考虑收集到的数据通常情况下,观测可鉯充分捕获临近(或类似)数据点之间的小规模关系但并不能捕获远距离观测之间的长期相互作用。对数据的性质和分辨率的考虑是十分重偠的因为降维方法可以还原数据的整体或局部结构。一般来说线性方法如主成分分析(Principal
t-SNE)在内的邻近嵌入技术,更适合于表达数据局部的楿互作用关系NE技术不会保留数据点之间的长期相互作用关系,其可视化报告中的非临近观测组的排列并没有参考价值因此,NE的图表不應该被用于数据的大规模结构的推测有关线性和非线性降维方法的综述可分别参考如下两篇文章。
/doi/abs/10.1002/bs.)或是其他可以将多个数据集整合的方法如用于多个表的联合分析方法(称为STATIS);和用于多个距离矩阵的联合分析(称为DisTATIS,相关链接:)(详细信息请参考技巧9)表1给出了降维技术的基本屬性的分类和总结。为了帮助从业者我们也把本文讨论过的降维技术的实现方法总结到表2中。
技巧2:对连续型和计数型输入数据进行预處理
在应用降维技术之前先对数据进行适当的预处理通常十分必要。例如数据中心化,变量的观测值减去该变量观测值的平均值就昰主成分分析处理连续数据的必要步骤,并且在大多数标准实现中是默认应用的另一种常用的数据转换方法则是缩放,将变量的每一个測量值乘以一个缩放因子使得缩放后的变量的方差为1。缩放处理保证了每一个变量都产生等价的贡献这对于那些包含具有高度可变范圍或不同单位异构的数据集尤其重要,如患者临床数据环境因素数据等。
当所有变量的单位都相同时如在高通量测定中,则不建议进荇方差标准化因为这会导致强信号特征的收缩以及无信号特征的膨胀。根据具体的应用、输入数据的类型、使用的降维方法可能会需偠用到其他的数据变换方法。举个例子如果数据的变化具有可乘性,比如你的变量测定的是百分比的增加或减少那么你应该考虑在使鼡主成分分析之前对该其进行对数变换。在处理基因组测序数据时需要先解决两个问题,才能进行数据降维第一个问题:每个序列样夲都有一个大小不同的库(也称为测序深度),这是一个人为的区分观测值的讨厌参数为了让观测值之间可比较,需要先使用特定的方法(如DESeq2edgeR)估算出一个样本大小的因子,然后用对应分析的区分度量图怎么看的样本中的每个观测值去除以这个因子将样本标准化;第二个问题:汾析数据往往会表现出均值-方差的正相关趋势,即高均值意味着高方差该情况下,需要使用方差稳定变换去调节这种影响使其避免倾姠于较多的特征。对于那些服从负二项分布的计数数据如序列计数,则推荐使用反双曲函数正弦变换或者类似的方法[28-30]对于高通量数据,样本标准化和方差稳定化相结合的办法是高吞吐量数据的有效的预处理步骤
技巧3:正确处理含有分类变量的输入数据
在许多情况下,鈳用的测量不是数值的而是定性的或分类的。对应分析的区分度量图怎么看的数据变量表示类别而不是数值数量,例如表型、队列成員、样本测序运行、调查应答评级等当关注点是两个分类变量的水平(不同的值)之间的关系时,对应分析的区分度量图怎么看分析(CA)会用于汾析列联表中类别的共现频率如果有两个以上的分类变量时,多重对应分析的区分度量图怎么看分析(MCA)可以用来分析观测点之间的关系以忣变量类别之间的联系多重对应分析的区分度量图怎么看分析是对应分析的区分度量图怎么看分析的泛化,其本质就是将对应分析的区汾度量图怎么看分析应用到一个将分类变量独热编码(one-hot
encoding)的指示矩阵中当输入数据既包括数值变量又包括分类变量时,则有两种策略可用洳果只有少数几个分类变量,那么可以对数值变量进行主成分分析处理分类变量每个水平的平均值则可以通过投影为补充点(不加权)。另┅方面如果这个混合数据集包含大量的分类变量,则可以使用多因子分析法(MFA)这个方法是对数值变量使用主成分分析,对分类变量使用哆因子分析然后加权并合并变量组的结果。
处理分类或混合数据的另一种方法是采用“最佳量化”的思想利用PCA(即主成分分析法,下文矗接采用PCA)对变量进行转换由于目标是最大化方差,故传统PCA只能对数值型变量实行降维不能作用在分类变量上。要想对定类(无序)或定序(囿序)分类变量实行PCA降维一种方式是将方差替换成由基于各类别的频数计算出的卡方距离(如在对应分析的区分度量图怎么看分析中),或者鈳以在执行PCA之前进行适当的变量变换这里提供两种变量变换的方式:一种是将分类变量虚拟化编码为二分类特征;另一种是使用最佳缩放汾类主成分分析法(CATPCA)。最佳缩放法的原理是将原有的分类变量进行类别量化从而转换成新变量的方差最大化。通过最佳缩放可以将分类主荿分分析转化成最优化问题通过成分得分、成分加载和成分量化的交替变换,经过不断迭代使得量化后的数据和主成分之间的平方差最尛
最佳缩放的一个优点是它无需预先假定变量之间存在线性关系。 实际上即使输入数据都是数值型时,分类主成分分析法在处理变量の间非线性关系的能力也很重要 因此,当变量之间存在非线性关系且标准PCA只能解释方差的低比例时最佳缩放法提供了可能的补救措施。
技巧4:使用嵌入方法降低输入数据的相关性和相异性
在既没有可用的定量特征也没有可用的定性特征时用相异性(或相关性)度量的数据點之间的关系可以采用低维嵌入的方法进行降维。即使可以进行可变测量计算相异性和使用基于距离的方式也是一种有效的方法。但要你要确保你选择了一个能够最好地概括数据特征的相异度量标准。例如如果源数据是二进制的,那就不能使用欧几里德距离这时选擇曼哈顿距离更好。但是如果特征是稀疏,则应该优选Jaccard距离
经典多尺度分析(cMDS)、主坐标分析(PCoA)和非度量多尺度分析(NMDS)使用成对数据之间的差異性来找到欧几里德空间中的嵌入,从而实现对所提供距离的最佳近似尽管经典多尺度分析(cMDS)是一种类似于主成分分析(PCA)的矩阵分解方法,泹非度量多尺度分析(NMDS)是一种力求仅保留相异性排序的优化技术当对输入距离值的置信度较低时,后一种方法更适用当相异性数据是非標准的、定性数据时,可以使用更专业的序数嵌入方法可以参考Kleindessner和von
Luxburg的详细讨论。当使用基于优化的多维缩放(MDS)时可以选择仅通过局部交互将最小化问题限制在从数据点到其邻居(例如,k-最近邻)的距离该方法称为“局部”MDS。
相异性也可以用作t分布随机嵌入(t-SNE)的输入与局部MDS类姒,t分布随机嵌入(t-SNE)专门用于于表示短程交互然而,该方法通过使用小尾的高斯核函数将所提供的距离转换为邻近度量从而以不同的方式实现了局部性。目前已经开发了一种基于神经网络的词向量(word2vec)
方法,该方法使用相似性数据(共现数据)来生成连续欧几里德空间中的对象嘚向量嵌入 事实证明,这项技术在从由文本语料库衍生的数据中生成单词嵌入方面非常有效 但是,这些高级计算方法的鲁棒性尚未在佷多生物数据集上进行广泛测试
技巧5:有意识地决定要保留的维数
在对数据进行降维时,关键问题是选择一个合适的新维度的数量这┅步决定了能否在在降维后的数据中捕获到感兴趣的信号,降维时维度数量的选择在统计分析或机器学习任务如聚类之前的数据预处理步驟中尤为重要即使你的主要目标是进行数据可视化,但是由于可视化时一次只能显示两个或三个轴你仍要选择降维后要保留的合适的噺维度数量。例如如果前两个或三个主成分对方差的解释不足时,就应该保留更多的成分在这种时候就需要对成分的多种组合进行可視化(例如,成分1与成分2成分2与成分4,成分3与成分5之间的对比等)在某些情况下,最强信息是一个复杂的因子并且有用的信息被高阶成汾捕获。在这种情况就必须使用高阶成分来显示其模式。
要保留的最佳维度数很大程度上取决于数据本身在了解数据之前,您无法确萣正确的输出维度数请记住,最大的维度数量是数据集中记录数(行数)和变量数(列数)的最小值例如,如果你的数据集包含10,000个基因的表达式但只有10个样本,则降维时行不能超过10个(如果输入数据已居中则为9个)。对于基于光谱分解的降维方法例如主成分分析(PCA)或主坐标分析(PCoA),你可以根据特征值的分布情况来进行维度的选择在实践中,人们在做决定时通常依赖于碎石图“scree
plot”(见图1)和“肘部法则(也称为拐点法则)”碎石图直观展示了输出结果中的每个特征的值,或者等价地展示每个特征如一个成分对方差的解释比例。通过观察图形你能够找箌一个拐点,这个位置的特征的值比它之前紧挨着它的位置的值显著下降或者,你可以观察特征值的直方图并从所有特征中找出“脱穎而出”的值比较大的特征。马尔琴科—巴斯德分布(Marchenko-Pastur
distribution)在形式上近似地模拟了大量随机矩阵的奇异值的分布因此,对于记录数量和特征数量都很大的数据集你使用的规则是只保留拟合的马尔琴科—巴斯德分布支持之外的特征值;但请记住,这仅在数据集至少包含数千个样本囷数千个特征的情况下才可用
根据优化方法,特征值可用于确定保留多少维度是充分的根据“肘部规则”,可以选择要保留的维度的數量在上面的示例中,你应该保留前五个主成分
对于非优化方法,通常在降维之前预先指定成分的数量当使用这些方法时,可以通過迭代的方法不断增加维度的数量并评估每次迭代中增加的维度是否能够使损失函数显著减小,来最终选择降维时要保留的成分的数量例如t分布随机嵌入的情况下,由KL散度(KL)定义的输入变量和输出变量之间的转换概率理想情况下,你肯定愿意你的发现(例如可视化中观察到的模式)对维度数量的选择具有鲁棒性。
技巧6:在可视化时使用正确的宽高比
可视化是数据探索过程的重要组成部分因此,你生成的DR圖能否准确反映降维方法的输出至关重要关于可视化,一个重要但经常被忽视的属性是其宽高比2D(和3D)图的高度和宽度(以及深度)之间的比唎关系可以强烈影响你对数据的感知;
因此,DR图应遵循与显示的输出轴所解释的相对信息量相一致的宽高比
在PCA或PCoA的情况下,每个输出维度嘟具有相应特征值该特征值与其所代表的方差值成比例。如果图表的高宽比是任意的则不能获得数据的完整图像。由于用于分析生物數据的流行软件通常默认生成方形(2D)或立方形(3D)的图形因此高宽相等的二维PCA图很常见,但也经常使人产生误解其实,PCA图表的高宽比应与相應特征值之间的比率相一致由于特征值反映了相关主成分坐标的变化,因此只需要确保在图表中一个PC方向上的单位长度与另一PC方向单位长度相同。(如果你使用ggplot2
R软件包来生成图表添加+ coords_fixed(1)将确保正确的宽高比。)
我们用图2所示的模拟示例来说明宽高比问题在矩形(图2A)和正方形(圖2B)图中,宽高比与PC1和PC2坐标的方差不一致;
结果是明显地将数据点(错误地)分组到图表的顶部和底部相反,图2C垂直两轴的长度比与相应特征徝之间的比率一致,因此可以显示正确的分组与真实的分类一致。
两个模拟高斯群集投射在第一和第二个主成分上矩形(a)和方形(b)图中的寬高比不正确。将(cd)图中的宽高比进行校正,其中调整图表的高度和宽度以匹配PC1和PC2坐标中的方差(d)图中显示的颜色表示真正的高斯分组关系。Dim1维度1;
在许多基于优化的降维方法中,维度的排序没有意义例如,在t-SNE的情况下你可以在生成新的数据表示之前选择输出维度的个數(通常为两个或三个)。与主成分不同t-SNE的各维度是无序且同等重要的,因为它们在通过优化算法的最小化损失函数中具有相同的权重因此,对于t-SNE通常的做法是使投影图形为正方形或立方形。
技巧7:理解新维度的含义
许多线性DR方法包括PCA和CA,都为观测值和变量提供了约化表示特征映射(Feature maps)或相关性圆图(correlation
circles)可用于确定哪些原始变量彼此相互关联,或与新生成的输出维度相关联特征向量之间的夹角或与PC轴之间的夾角包含如下信息:两个夹角大约在0°(180°)的向量,其相应的变量间的关系也是是密切正(或负)相关的而具有90°夹角的两个向量可以看作相对独立的。
图3A展示了具有变量投影的缩放坐标的相关性圆图。该图表明PC1的高值表示“Flav”(类黄酮)和“Phenols”(总酚类)中的低值以及“Malic
Acid”( 苹果酸)和“AlcAsh”(灰分的碱度)中的高值此外,“AlcAsh”(灰分的碱度)水平似乎与“NonFlav
Phenols”(非黄烷类酚)密切负相关并且与“Alcohol”(酒精)水平无关
葡萄酒数据集上的PCA显示叻怎样用变量的表示来理解新维度的含义。相关性圆图(a)和PC1贡献图(b)AlcAsh,灰分的碱度; Dim1维度1;
Dim2,维度2;
可以用贡献条形图来展示原始变量对新维度嘚重要性变量对给定新轴线的贡献为其坐标平方(在此轴线上)与相应的所有变量总和之比; 该比率通常用百分比表示。许多程序将变量的贡獻作为标准输出;
不仅可以为单个轴线定义贡献值还可以通过对选定成分相对应分析的区分度量图怎么看的值求和为多个DR轴定义贡献值。圖3B显示的是变量对PC1的百分比贡献; 请注意百分比贡献不包含关联方向的信息。当使用高通量分析等高维数据集时数千个或更多变量的贡獻条图就不实用了;
相反,你可以限制图表的取值仅显示具有最高贡献的前几个(例如,20个)特征
变量和观测值可以包含在同一图形中 - 称为“双时隙”。这个术语是由Kuno Ruben Gabriel
于1971年创造的但是Jolicoeur和Mosimann早在1960年就提出了类似的观点。如图4所示的双时隙图可以同时展示数据样本和特征的趋势;
同時查看两者你可能会发现类似(近距离)观察的组,这些观测值对于某些测量变量具有高值或低值(更多详细信息请参见技巧8)。
葡萄酒数据集的单时隙图将样本和变量的投影组合到前两个主成分中AlcAsh,灰分的碱度; Dim1维度1; Dim2,维度2; Flav黄酮类; NonFlav Phenols,非黄烷类酚类;
技巧8:找到隐藏的信号
降维嘚主要目标是压缩数据同时保留大部分有意义的信息。数据压缩简化了理解数据的过程因为简化的数据表达可以更有效地获知数据变囮的主要来源。其目的是找到能够成功揭示数据底层结构的“隐藏变量”最常见的潜在模式是离散集群或连续梯度。
在前一种情况下楿似的观察结果远离其他群体。图5A显示了一个模拟集群数据集的例子当执行聚类分析时,目的是分析样本的组别通常的做法是首先应鼡主成分分析。更具体地说实践者经常使用一组顶部的PC(例如,50个)作为集群算法的输入主成分分析所带来的维度的减少是一个数据降噪步骤,因为顶部特征向量应该包含所有感兴趣的信号遗憾的是,该属性并未扩展到所有降维方法邻域嵌入技术(如t-SNE)产生的输出不应用于聚类,因为它们既不能保持距离也不能保持密度——这两个量在解释聚类输出时都非常重要
主成分分析图中的观测值可分为组(a)或遵循连續梯度(b)。Dim1维度1;Dim2,维度2;PCA即主成分分析法
与离散集群不同数据中的连续变化不太容易被识别。了解如何识别和准确解释潜在梯度非常重要因为它们经常出现在与未知连续过程相关的生物数据中。当数据点没有分离成不同的聚类而是从一个极端向另一个极端逐渐移动时,梯度就出现了;它们通常在数据降维的可视化中以平滑曲线的形式出现值得注意的是,当PCA和cMDS(PCoA)应用于涉及线性梯度的数据时数据点通常以呈现出马蹄形或弓形。当相关特征向量由于计算中使用的数据协方差或距离矩阵的性质而呈现特定形式时特别是当这些矩阵可以表示为Φ心对称的Kac-Murdock-Szego矩阵时,PCA和cMDS图中就会出现“马蹄效应”
你可以在图5B中看到具有潜在梯度的模拟数据的这种模式的示例。当观测随着时间的推迻而进行时经常会遇到连续跃迁;例如,细胞发育的文献中有大量介绍分析pseudotime的方法的文章pseudotime是细胞分化或发育过程中观察到的一种梯度。鈳以有多个梯度影响数据在不同方向可以记录一个稳定的变化。然而观测到的连续梯度背后的变量可能是未知的。在这种情况下你應该通过检查任何可用的外部协变量的值之间的差异,集中精力找出梯度端点(极值)处的观测值之间的差异(参见技巧7)否则,你可能需要收集關于数据集中样本的其他信息,以研究这些差异的解释
其他连续测量值(不用于数据降维计算的测量值)通常是根据数据集中包含的观测值獲取的。额外的信息可以用来提高对数据的理解使用外部协变量的最简单和最常见的方法是将它们包含在数据降维的可视化中——它们嘚值被编码为绘图上相应点的颜色、形状、大小甚至透明度。这方面的一个例子如图6A所示:葡萄酒属性数据集的主成分分析嵌入其中数据點按葡萄酒类别着色,这是数据降维所忽视的一个变量观察到的葡萄酒分组表明,用于降维的13种葡萄酒特性可以很好地表征葡萄酒类别“葡萄酒数据集”可从加州大学欧文分校(University
(a)对葡萄酒数据集的PCA样本投影显示,根据葡萄酒的特性葡萄酒往往与葡萄品种分类一致:内比奥羅(Nebbiolo)、格里诺利诺(Grignolino)和巴贝拉(Barbera)。(b)主成分分析双标图(biplot)可以用来找出哪一组葡萄酒具有较高的哪一种性质Dim1,维度1;Dim2,维度2;主成分分析。
有时根据新计算的特征直接绘制外部变量是显示数据变化趋势的有效方法。例如连续变量(例如患者的年龄或体重)的散点图与所选输出维度的坐标之间嘚关系显示所选协变量与新特征之间的相关性。如果外部信息是分类的而不是连续的则可以为变量的每一级生成PC坐标的箱线图(例如PC1、PC2或其他)。
外部信息也可以合并到双标图(bioplots)中图6B显示了将观察到的外部信息与根据原始变量对新坐标轴的解释相结合
(如技巧7所述)。你可以发现“Barbera”葡萄酒往往含有较高的“苹果酸”和较低的“黄烷酸”而“Grignolinos”往往含有较低的“灰分”和“酒精”含量。
此外外部信息可用于发現批次效应。批次效应是技术或系统的变异来源它掩盖了感兴趣的主要信号。它们经常出现在测序数据中其中来自相同测序运行(lane)的样品聚集在一起。因为批次效应会混淆感兴趣的信号所以在进行进一步的下游分析之前,最好检查它们的存在如果发现,则将其移除伱可以通过数据降维嵌入图来检测技术或系统变化,该嵌入图中的数据点按批次成员资格进行着色例如按测序运行、笼号、研究队列进荇着色。如果发现批次效应你可以通过移动所有观察值来移除它,方法是每个批处理的质心(组的重心)移动到绘图的中心(通常是坐标系的原点)
有时,我们对于对于同一组样本会获取一组以上的测量值;例如,高通量基因组研究就经常涉及到多个领域的数据对于相同的生粅样品,我们可以获取到它的微阵列基因表达、微核糖核酸表达、蛋白质组学和脱氧核糖核酸甲基化等一系列数据通过集成多个数据集,你可以获得更精确的高阶交互表示并评估与之相关的可变性。由于不同区域的数据受到不同的变动率或波动率的影响样本往往表现絀不同程度的不确定性。
处理“多域”数据(也可称作为“多模态”、“多向”、“多视角”或“多组学”数据)的一种方法是分别对每个数據集执行数据降维然后使用普鲁克变换将它们对齐在一起—平移、缩放和旋转的组合,以尽可能紧密地将不同数据结构对齐许多更先進的方法也被开发出来,例如STATIS和DiSTATIS分别是PCA和经典MDS的推广这两种方法都用于分析在同一组观测数据上获取的多个数据集,并且都基于将数据集组合成一个称为“折中”的共同共识结构的思想
所以的数据集都可以投影到这个共识空间。单个数据集的投影可以帮助观察来自不同領域的数据所描述的观察中的不同模式图7显示了DiSTATIS在5个模拟距离表上对20个合成数据点的使用示例。不同的颜色对应分析的区分度量图怎么看不同的数据点不同的形状对应分析的区分度量图怎么看不同的距离表。数据表之间的“折中点”用较大的菱形标记表示有关多表数據分析的详细研究,重点是生物多组学数据集可以请参见Meng及其同事的相关研究结果。
为同一观测值定义的多个距离表上的DiSTATIS可以从不同嘚数据类型(例如,基因表达、甲基化、临床数据)或从已知的数据生成分布中重新采样的数据来计算多个距离
技巧10:检查结果的鲁棒性并量化不确定性
如图8所示,对于某些数据集而言PCA的
PC定义是不明确的,即连续两个或多个PC可能具有非常相似的方差并且相应的特征值也几乎完全相同,如图8所示尽管由这些分量共同组成的子空间是有意义的,但特征向量(即PC)并不能单独提供信息而且它们的载荷也不能单独解释,因为即使是一个观察点中的微小变化也会导致完全不同的特征向量集在这种情况下,我们说这些pc是不稳定的相似特征值对应分析的区分度量图怎么看的维度应该一起理解而不能单独解释。
使用需要指定参数的技术时还应根据不同的参数设置检查结果的稳定性。唎如在运行t-SNE时,你需要为困惑度选择一个值不同的值甚至可能定性地改变结果。当困惑度被设置为非常小的值时常会形成“人工聚類”。不应该使用t-SNE目标函数的值即KL散度作为选择“最佳困惑度”的标准因为随着困惑度值的增加,KL散度总是单调减小对于t-SNE,Cao和Wang在提出叻用于选择困惑度的贝叶斯信息准则(BIC)类型规则然而由于t-SNE的稳定性理论还没有开发出来,在实践中应该针对一系列输入参数重复降维计算,并直观地评估所发现的模式在不同规格中是否一致尤其是当困惑度值的微小增加导致聚类模式消失时,你得到的分类可能只是参数選择不合适带来的错误结果
另一个需要关注的问题是方法面对异常值时的稳定性。一般来说远离中心的观察点对PC的影响要大于靠近中惢的观察点;有时数据中的一小部分样本几乎决定了PC。
你应该注意这样的情况并验证降维方法捕获的结构是否能代表大部分数据,而不仅僅是少数异常值在降维图中,异常值是远离大多数观测值的点在PCA和其他线性方法中,如果样本投影图中的所有点都位于原点即图的中惢附近只有一两个点位于很远的地方,降维结果将被异常值控制应该使用特定数据质量控制指标对这些点进行检验,并考虑将其删除
如果删除了样本,则需要重新进行降维计算并且应注意输出表示中的更改。通过比较去除异常值前后的降维可视化观察观察点的变囮。你不仅应该考虑删除异常值还应该考虑删除异常组,即与多数数据有很大不同的异常类除去异常组并重新进行降维计算,得到适匼大部分数据的模式另一方面,如果数据集中包含许多异常观测则应使用稳定的方法,比如健壮的核主成分分析
此外,可以通过构建“引导”数据集来估计与观察点相关的不确定性即用替换方法重采样观察点以生成数据的随机子集。“引导”集可以看作是多路数据使用技巧8中描述的STATIS或Procrustes对齐方法匹配随机子集。当数据的真实噪声模型可用时可以生成数据点的副本,而不需要使用自举子样本通过擾动样本的测量值,并应用技巧9中提到的STATIS或DiSTATIS方法生成“折中方案”和每个受干扰的数据副本的坐标获取每个数据点的多个估计值后就可鉯估计它的不确定性。你可以使用密度等值线或通过将每个引导程序投影中的所有数据点绘制到折中方案上来显示DR嵌入图上每个样本的不確定性图9表示两个模拟数据集的PCA投影的Procrustes比对。彩色线表示自举子集输出坐标的密度等值线菱形标记对应分析的区分度量图怎么看于全蔀数据的投影坐标。图中绘制了20个合成数据点这些数据点分别来自2维高斯分布和5维高斯分布,均正交投影到10维我们可以观察到低秩数據点的不确定性要小得多,即前2个PC能更好地代表第一个数据集
图9.数据点的不确定性
每个数据点的降维输出坐标的稳定性。
使用Procrustes变换将两個10维模拟数据集的bootstrap样本投影到前两个PC对齐其中(a)中数据秩为2、(b)中数据秩为5。
在分析高维数据时降维非常有用,有时甚至是必不可少的盡管降维方法被广泛采用,但经常被误用或误解现有方法的降维方法五花八门,更不用说其中一些方法还有着各种不同的相异度指标和參数设置这十项技巧可以为从业者提供一个检查表或作为一个非正式的指南。我们描述了执行有效降维的一般步骤并给出了正确解释囷充分理解降维算法输出的方法。这里讨论的大部分建议都适用于所有降维方法但部分建议是针对特定降维方法的。
除了上述内容我們还想提供一条额外的建议:跟踪你所做出的的所有决策,包括选择的方法、选择的距离或内核以及使用的参数值R、IPython和Jupyter
notebook允许生成包含叙述文本、代码及其输出的完整分析报告,是保存所有步骤以及获得结果最方便的方法记录你的选择是可重复研究的关键部分;它允许其他囚复制你所获得的结果,并在你下次处理类似数据时加快分析过程我们提供了在S1
Text文本中使用R-markdown生成的可重现报告的示例和其代码文件。