主成分分析(PCA),是考察多个变量间相关性的一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。
图1 主成分分析得分图
在生物医学领域,生物样本存在于一个复杂的系统,容易受各种环境因素及自身基因、代谢等因素的影响,变量非常多。PCA可以从复杂的数据中找到最主要的元素,去除噪音和冗余,所以应用较为广泛。
作为目前比较常见的可视化手段之一,热图(Heatmap)因其丰富的色彩变换和生动饱满的信息表达被广泛应用于各种类型的数据分析。热图可以用来进行差异数据的具像化显示,直观地展示重点研究对象,同样可以对样本进行聚类,从而观测样品质量等。虽然热图表达形式各样,但其基本元素却是通用的。
下面为大家介绍一种在线就可以绘制PCA图和Heatmap的方法,该方法用到的在线工具为ClustVis,网址为:https://biit.cs.ut.ee/clustvis/
一、上传绘图数据
点击上方菜单栏Data import,再点击左侧菜单栏Upload file,上传已准备好的数据,数据格式可以是.txt和.csv,数据大小不应超过2M。
当然也可以点击Paste data复制粘贴自己的数据。
ClustVis贴心的为使用者准备了样例数据,点击左侧菜单栏Load sample data,可以看到数据被识别为三部分,分别为Column annotations、Numeric data 、Row annotations。
那么,上传的原始数据应该是什么样式呢?
这里为大家展示下原始数据样式(数据不具有实际意义,仅作展示用),需要绘制PCA图和Heatmap图的同学按该格式准备自己的数据即可,上传后检查下上面三部分是否正常。
如果需要转置数据矩阵,则点击左侧菜单栏最下方transpose matrix(数据点击了transpose matrix)。
二、数据预处理
数据上传完成之后,点击上方菜单栏 data pre-processing 开始数据预处理,处理结果分为六个部分:矩阵大小信息Data matrix size、行缺失值Missing values (NAs) in rows、列缺失值Missing values (NAs) in columns、主成分方差解释Variance explained by principal components 、主成分Principal components和载荷系数Component loadings。
如果需要自定义分析过程,则点击左侧菜单栏相应按钮,主要有:transformation:对原始数据求进行对数处理;column annotation groups to keep:数据注释信息的保留,建议全部勾选;其他选项如Row scaling和PCA method等可根据个人需求调整。
三、PCA可视化
此步直接点击上方菜单栏的PCA即可出图。
如果需要自定义,可以点击左侧菜单栏的change data options、change display options和change plot labels 调整图片的图例、长宽比例、点的大小等。
四、Heatmap可视化
点击上方菜单栏的Heatmap即可自动出图。
如果仍需自定义,同样可以点击左侧菜单栏的change data options、change display options和change plot labels 调整图片的行列聚类方法、行列注释信息显示与否、长宽比例、配色方案、点的大小、行列名称的字体大小等。
五、图片/数据导出
我们可以在PCA和Heatmap菜单下保存PDF、EPS和SVG图片格式,可以在Export菜单下保存分析过程产生的CSV表格数据等。
- 本文固定链接: https://oversea.maimengkong.com/image/961.html
- 转载请注明: : 萌小白 2022年6月3日 于 卖萌控的博客 发表
- 百度已收录