一、OTU统计分析
1.聚类统计表
为了方便研究样品的物种的组成多样性信息,需对样品的有效序列进行聚类,按照97%的序列相似度将这些序列聚类成为OTUs( OperationalTaxonomic Units ),得到每个cluster的序列及其代表序列(即为OTU),用于统计每个OTU序列和丰度进行下游分析。
图1 OTU聚类统计表
每行代表一个OTU 在不同样品中的序列数,每列代表一个样品中各个OTU的丰度。对每个样本而言,OTU丰度构成该样本的组成结构。该结果是后续物种丰度研究的基础。
2.OTU分布Venn图
Venn图可以帮助我们展示在多个(组)样本中共有和独有的OTU数量,直观展示环境样本中OTU组成的相似性和特异性。通常选取2~5个(组)样本绘制Venn图,可以获取较佳的展示效果。
图2 OTU分布Venn图
每个圈代表一个(组)样,圈和圈重叠部分的数字代表样本(组)之间共有的OTUs个数,没有重叠部分的数字代表样本(组)的特有OTUs个数。通过venn图分析结果,我们得到所共有OTU和特有的OTU,帮助我们发现不同条件下一些重要的差异OTU。
二、Alpha多样性分析
Alpha多样性通常用于度量群落生态中物种的丰富度,是反映物种丰富度和均匀度的综合指标。一般在文献中多次出现的多样性指数为observed_species、shannon、Chao1和observed species。
observed species指数:表示该样品中含有的物种数目,数值越高表明样品物种丰富度越高。
Chao1指数:估算样品中所含OTU数目的指数,数值越大代表样本中所含物种越多。
Shannon指数:评估样本中物种组成的丰富度和均匀度。值越大表示该环境的物种越丰富,各物种分配越均匀。
Simpson指数:从一个样本数据中随机取两个OTU,它们属于不同物种的概率。这一概率越大表示样本的物种多样性越高,反之越低。该指数可以评估优势种在群落中的地位和作用。
1.稀释曲线
通过绘制稀释曲线,统计OTU的丰富程度,对比不同样品的稀释曲线就可以直观显示样品间物种多样性的差异。稀释曲线可直接反映测序数据量的合理性,并间接反映样品中物种的丰富程度,当曲线趋向平坦时,说明测序数据量渐进合理,更多的数据量只会产生少量新的物种(OTUs)。
图3 稀释曲线图
三、 Beta多样性分析
Beta多样性是指不同环境群落之间的物种差异性。Beta多样性与alpha多样性一起构成了总体多样性或一定环境群落的生物异质性。Beta多样性分析通常由计算环境样本间的距离矩阵开始,该矩阵包含任意两个样本间的距离。主要包括UPGMA聚类分析及PCoA分析。
1.样品聚类
为了适应不同的环境样品类型,基于各样品的OTU分析结果,我们将使用最常用的unweighted unifrac和weighted unifrac两个指标来衡量两个样品间的相异系数,其值越小,表示这两个样品在物种多样性方面存在的差异越小。
图4 UPGMA层次聚类分析(左图为Weight_UniFrac结果,右图为Unweight_UniFrac结果)
结果图中树枝不同颜色代表不同的分组。聚类树展现了样本间的相似度,样本间的分枝长度越短,两样本越相似。
2.PCoA分析
PCoA分析(PrincipalCoordinateAnalysis,主坐标分析)是基于距离矩阵寻找主坐标,通过对多维数据进行降维,从而从复杂数据中提取和可视化最主要的元素和结构。
图5 PCoA分析2D示意图(左图为Weight_UniFrac结果,右图为Unweight_UniFrac结果)
该结果中不同颜色代表不同分组,样品距离越近,说明样品之间的微生物组成结构越相似,差异性越小。
四、物种分析
1. 物种分类注释
将OTU代表序列分别与数据库进行比对,其中注释结果通常以RDP优先。通过与RDP数据库和NT-16S数据库的注释,得到各个样本所有OTU的物种注释。
图6 物种分类注释表格
表格展示了每个OTU所注释到的物种及在每个样品属于该OTU的序列数。
2.物种分类统计
根据物种丰度表和物种注释表,选取丰度最高的物种分类,进行相对丰度计算,获得相对丰度文件,绘制样品丰度比较的柱状图,该柱状图以堆叠柱状图(stacked bar chart)形式展现, 便于更直观地进行样品丰度的比较。
图7 样品丰度柱状图
结果图中横轴为样品名称,纵轴代表某分类的相对丰度;不同颜色对应同一层次不同物种,通过柱状图可以明了每个样本高表达物种组成,同时也可以观察组内物种组成及表达和组间物种表达趋势。结合PCoA等结果进行离群样本判断。
3. 物种注释结果KRONA展示
为了更直观展示各样品在不同分类水平(界门纲目科属种)的丰度情况,我们利用Krona软件对单样品物种注释结果及丰度进行动态可视化展示。该网页文件对样品物种分类学组成进行交互展示,扇形的大小反映了不同分类水平的物种相对丰度高低,并可以查看具体的丰度数值。
图8 Krona物种注释结果
4. 物种分类热图(taxa heatmap)
根据样品相对丰度表,将各分类水平相对丰度最高20个的群落组成数据根据分类单元的丰度分布或样本间的相似程度加以聚类,根据聚类结果对分类单元和样本分别排序,并通过热图加以呈现。通过聚类,可以将高丰度和低丰度的分类单元加以区分,并以颜色梯度及相似程度来反映多个样品在各分类水平上组成的相似性和差异性。
图9 热图分析
5. 物种进化树
为了研究系统进化关系,我们通过某一分类水平下OTU序列碱基差异结合各个OTU序列的物种注释信息构建物种进化树。如下图所示:
图10 物种进化树
结果图中不同分支代表不同属水平分类,根据图中两个物种距离表明他们之间的进化关系越相似,可以直观的发现重点研究物种的发生关系及其生物学意义。
五、显著性差异分析
根据样品丰度表,进行样品或样品组间的物种差异分析。在七个层级分别进行差异分析,筛选差异显著物种进行后续研究。
图11 显著性差异分析表格
上述结果将各个层级物种差异表达进行了计算统计,可以根据表格中significance列(p≤0.05)筛选是否显著。该结果一般结合实验设计及生物学意义进行讨论,或是可以进行LEfSe分析绘图更加直观展现组间差异物种。
1.LEfSe分析
LEfSe分析主要目的两组或多组之间的比较,找到不同组间在丰度上有显著性差异的物种(biomarker)。
图12 LEfSe分析示例图
结果图中不同圆圈层从内至外辐射分别代表界门纲目科属种七个分类级别,各个节点代表该水平下的一个物种分类,该物种丰度越高节点越大。其中节点颜色为黄色的表示该物种在比较组中无显著性差异,其他颜色比如groupA中的红色,如果节点颜色为红色则表示该物种在比较组中有显著性差异,且该物种在groupA中的丰度更高,其他颜色以此类推。
六、Spearman关联分析
最近基于微生物之间相互关系的网络分析要求越来越多,它主要目的是观察微生物间(或OTU)的相互作用,通过斯皮尔曼(Spearman)关联系数计算等方法,找寻微生物在不同环境下的可能的相互“协作”或“竞争”关系。
图13 关联分析示例网络图
通过对丰度较高(视项目情况而定)的OTU(或某一特定分类水平的物种)表达量之间的相关性筛选构建关联网络。结果展示中不同的节点代表不同的优势属,节点之间的连接表明两个属之间存在相关性,相关性越强,连接线明显,其中红线表明正相关,蓝线表明负相关。此外,节点颜色通过门水平来定义,节点颜色相同,表明这些属属于同一个门。通过节点连接的数量,可以找出与菌群中其它成员的关联较多的物种,进而探索这些物种彼此相关性的生物学意义。
今天的常见图表含义及说明就讲解到这里了,是不是感觉自己对微生物研究有了更深入的了解呢~
- 本文固定链接: https://oversea.maimengkong.com/kyjc/593.html
- 转载请注明: : 萌小白 2020年1月30日 于 卖萌控的博客 发表
- 百度已收录