基因组结构性变异(Structure Variantions,简称SVs),通常就是指基因组上大长度的序列变化和位置关系变化。类型很多,包括长度在50bp以上的长片段序列插入或者删除(Big Indel)、串联重复(Tandem repeate)、染色体倒位(Inversion)、染色体内部或染色体之间的序列易位(Translocation)、拷贝数变异(CNV)以及形式更为复杂的嵌合性变异。
SNPs 与 SNVs,二者都是单核苷酸的改变,如果细究起来,还是有些区别的。SNPs一般是针对“群体”而言,且在群体中占据一定比例(well characterized),而SNVs一般是针对“个体”而言,发生频率非常低,不常见 (not well characterized)。
基因组拷贝数变异是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。例如人类正常染色体拷贝数是2,有些染色体区域拷贝数变成1或3,这样,该区域发生拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。如果把一条染色体分成A-B-C-D四个区域,则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增及缺失,扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增,如A-C-B-C-D。
这种类型比较多,根据结构变异的不同类型可以进一步分为50bp以上的长片段序列的:
插入和缺失( insertion-deletion,InDel),指的是在基因组的某个位置上所发生的小片段序列的插入或者缺失,其长度通常在50bp以下。与SNP不同的是,它并不是单个碱基的变化,而是在基因组中发生不同大小的DNA片段的插入或者缺失。它在基因组中的分布频率也是仅次于SNP,且很多都发生在基因内部甚至是外显子区域、启动子区域等重要位置。这种变异往往能够引起基因功能产生重大变化,同时InDel也是非常重要的一种基因组结构变异。
目前在很多SNP检测用在肿瘤基因检测中,这里就涉及到两个非常非常重要的概念,germline和somatic。
在肿瘤分析的软件中会大量看到这两个概念。因为不同的软件需要区分是哪种突变,例如GATK,freeabys,bcftools等只能找germline突变,而Mutec,varscan,SomaticSniper,muse,strelka只能用来找somatics突变。
突变类型:
定义:表达数量性状基因座(expression Quantitative Trait Loci,eQTL)指与单个基因 mRNA 表达量相关的 DNA 突变。eQTL 可分为 cis-eQTL 和 trans-eQTL,前者就是某个基因的 eQTL 定位到该基因所在的基因组区域,表明可能是该基因本身的差别引起的 mRNA 水平变化;后者是指某个基因的 eQTL 定位到其他基因组区域,表明其他基因的差别控制该基因 mRNA 水平的差异。
四、变异注释
我们刚刚拿到的变异只有位置,有参考基因组的碱基、突变成的碱基。而我们找基因突变的目的不是为了找看基因突变,而是为了看这个基因在蛋白的表达上有什么影响使人体患病。就是说要将其转换为生物体上的数据。比如说这个基因表达了那种蛋白,由于该基因突变导致此蛋白失活,使得该蛋白没有功能了。