经系统检测,您当前使用的浏览器可能不符合交互需求。

为获得更好的交互体验,推荐您使用以下浏览器。

Firefox

点击下载

Chrome

点击下载

PCA主成分分析

描述说明:PCA分析(Principal Component Analysis),是一种对数据集进行简化分析的技术。PCA运用了方差分解,对多维数据进行降维,去除噪音和冗余,揭示隐藏在复杂数据背后的最主要的元素和结构。
  • 详细说明
  • 撰写评论

    PCA分析(Principal Component Analysis),是一种对数据集进行简化分析的技术。PCA运用了方差分解,对多维数据进行降维,去除噪音和冗余,揭示隐藏在复杂数据背后的最主要的元素和结构[1,2]

     

    应用PCA分析,能够提取出最大程度反映样本间差异的两个坐标轴,从而将多维数据的差异反映在二维坐标图上,坐标轴取能够反映方差贡献的最大特征。样本数量越多,分析意义越大。如样本的组成越相似,则它们在PCA图中的距离越接近。PCA分析能够反映样本间分散或聚集的分布情况,从而判断样本组成是否具有相似性。

     

    利用PCA分析解决大数据分析面临的三大难题:

    1、通过降低维度解决高维度难题

    2、降低维度既可以有效去除冗余数据,又保证特征信息损失最小化

    3、降维后的数据可进行可视化展示,便于解读大数据中的有效信息

     

    1、以微生物多样性分析为例,输入的二维数据表为otu_table,如图1。数据表的制作方法参照参数设置页面说明。

     

    图 1

     

    2、点击保存并运行,输出对应的PCA分析图表。使用图表工具,可对样本(N≥3,)进行分组设置,并设定分组颜色和形状方案,进一步优化PCA分析图,如图2。

     

    图 2

     

    图中选择前两个主成分PC1和PC2进行作图。不同颜色或形状的点代表不同环境或条件下的样本组,横、纵坐标轴的刻度是相对距离,无实际意义。主成分1(PC1)、主成分2(PC2)分别代表对于三组样本微生物组成发生偏移的疑似影响因素,需要结合样本特征信息归纳总结,PC1和PC2的贡献率分别为43.61%和21.69%。例如test1组(红色三角) 、test2组(绿色圆点)和con组(蓝色菱形)的样本在pc1轴的方向上分离开来,则可分析为PC1是导致三组分开(可以是地域不同或酸碱不同)的主要因素。

     

    [1]Yu Wang, Hua-Fang Sheng, et al. Comparison of the Levels of Bacterial Diversity in Freshwater, Intertidal Wetland, and Marine Sediments by Using Millions of Illumina Tags.Appl. Environ. Microbiol. 2012, 78(23):8264.

    [2]Ruvindy R, Iii R A W, Neilan B A, et al. Unravelling core microbial metabolisms in the hypersaline microbial mats of Shark Bay using high-throughput metagenomics[J]. Isme Journal, 2015, 10(1).

    最新评论:

    ( 正在加载... )