生物信息学是信息与系统科学和生命科学高度交叉的前沿学科,是自动化学科群中的重要部分,包括计算生物学、系统生物学与合成生物学等方向。生物信息学涉及多个学科领域,信息、控制与系统的理论、方法和技术在其中发挥着重要作用,同时,它也把控制科学与工程的研究对象从机械、电子、物理、化学等系统扩展到了以分子和细胞为基本元件的生命系统。本专题报告从信息科学视角对 2013 — 2017 年我国在生物信息学领域的主要进展进行回顾。
新一代测序技术迅速发展,能以更高通量、更低成本快速完成基因组和转录组测序, 对数据处理和分析是很大挑战。序列比对、组装等传统生物信息学问题仍是当前研究的一个重点。其中,测序读段的组装处于数据处理流程中的最上游,中南大学提出了一种基于图优化的骨架片段构建方法[1]和基于读段分布和插入尺寸的从头组装方法[2],山东大学提出能提升重复性区域组装效果的算法[3];对转录组测序组装,山东大学开发了假阳性率更低的组装工具[4],香港大学开发了能更好应对基因表达水平不均衡情况的组装工具[5];对宏基因组测序数据,香港大学开发了高速、单计算节点的组装算法[6],中科院网络中心和云南大学开发了宏基因组读段比对系统[13]。在序列比对这个经典问题上,中山大学、香港中文大学和深圳大学分别开发了更快、更准确的比对工具[7,8,12],哈工大针对噪声强的长序列、多参考基因组和允许分裂匹配的情况设计了一系列比对方法[9-11],香港浸会大学使用GPU 加速了序列比对的过程[14],天津大学与哈尔滨工业大学开发了一种更快的并行化多序列比对方法[15]。
差异表达与聚类分析是测序数据下游分析中两个重要步骤,由于测序数据本身存在噪声、测序覆盖度变化范围大、类别样本数可能严重不平衡性等因素,有效、准确地针对测序数据进行差异表达和聚类分析是一个重要的基本问题。复旦大学、中山大学、清华大学、湖南师范大学、西安交通大学等针对差异表达分析中存在的数据噪声大、样本量过小或过大、假阳性率估计不准确、本间不独立等问题,开发了多种新的差异表达分析方法[16-21]。西南财大、北京林大、清华大学、同济大学等采用多种模型与算法,对传统RNA 测序和新兴的单细胞RNA测序数据,分别提出了几种不同应用场景下的聚类方法[22-26]。这些热点领域的算法研究使得我国在相关领域的研究已进入国际前沿。
我国学者提出多个全基因组关联研究(GWAS)相关的生物信息学方法。清华大学提出一种基于疾病—基因相互作用网络,用随机游走算法检测致病基因的方法[39],香港大学提出一种整合GWAS和基因组三维相互作用信息来检测有调控功能的变异的方法[40],哈医大建立了一个关联SNP 和非编码区域的数据库[41],复旦大学建立了通过远端调控解释疾病表型的模型[42],同济大学提出一个整合表观数据和遗传学数据进行调控通路富集分析的方法[43]。伴随着方法学研究,我国在复杂性状表观遗传调控方面也取得多项新发现。
基因不是相互孤立行使功能的,而是多个基因通过多种转录调控、蛋白质相互作用等形成分子网络,以系统形式行使功能。近年来,我国学者在生物分子网络研究方面取得显著成绩,包括构建基因调控网络、miRNA 调控网络、基因共表达网络,识别网络模块和标志物,分析癌症的分子网络机制等。
在构建基因调控网络方面,中科院上海生科院基于互信息提出了条件相容信息,利用表达谱构建转录调控网络[44];南京中医药大学和香港浸会大学提出了基于贝叶斯网络和吉布斯采样的新工具,整合两种信息推断调控网络[45];北京林业大学利用互信息构建不同环境刺激下的动态调控网络[46];香港大学提出一种基于间隙对齐的表达谱分析方法, 有效构建剪接体特异的基因网络[47];中国台湾新竹清华大学通过eQTLs 推断局部因果关系网络,再通过随机场排序方法构建全局调控网络[48]。在miRNA调控分析方面,同济大学等仅用基因表达谱信息实现癌症中 miRNA- 基因 - 信号通路网络的推断[49];东南大学和南京师范大学通过表达相关性构建转录因子 -miRNA- 基因网络,从系统层次上理解乳腺癌[50];哈尔滨工业大学提出一种假性 3D聚类方法用于识别miRNA 和基因组成的双层网络中的模块[51]。对基因共表达网络,北京大学提出一种基于 F 范数的假设检验方法, 用RNA-seq 数据构建共表达网络[52];复旦大学利用典型相关性分析构建基于外显子等基因组元件的共表达网络[53];南方医大另辟蹊径,尝试了通过文本分析抽取与高频共出现 基因构建基因网络[54]。
在识别网络模块和标志物方面,南京大学将基因信号通路作为一个整体来构建网络, 通过多网络中心分析识别网络中的重要模块,找到关键信号通路[55];上海生科院提出将网络中节点和边互换,识别紧密相连的节点组合作为“边标志物”[56],还提出了通过单个病人的表达谱信息识别动态网络标志物[57];哈尔滨医科大学通过整合多组学数据和蛋白质互作网络,识别变异基因及其下游基因和驱动癌症的关键模块[58-60];上海师范大学与MIT合作,通过细胞系表达相似性和药物响应相似性构建双层网络,预测肿瘤细胞的药物响应[61];中科院数学科学院开发了基于网络稀疏惩罚的部分最小二乘方法,分析基因表达和药物响应的共通模式[62]。
生物信息学领域中基于深度学习的方法也开始涌现。如四川大学在二级结构预测中提出一种深度递归编码解码网络[86];香港大学将深度卷积网络和递归网络结合起来进行二级结构预测[87];西南大学提出深度RBM 进行蛋白质功能预测[88];清华大学提出用于建模RNA 绑定蛋白结构特征的深度学习框架[89]、用于冷冻电镜图片中粒子挑选的深度学习方法[90]以及改进残基长程接触预测的深度学习框架[91];南京航空航天大学和上海交通大学提出了一种用于蛋白质亚细胞定位的深度提取图像特征的方法[92]。对于一些无法采用监督学习的问题,北京大学发表了一种基于迭代约束K均值算法的冷冻电镜图像聚类算法[93]。考虑到蛋白质功能的多重性,华南理工大学和南京大学将蛋白质功能预测建模的多标记、多实例问题进行解决[94-98],复旦大学将其建模为主动学习问题[99];此外,深圳大学、香港城市大学以及南京理工大学采用集成学习及极限学习建模来解决蛋白质 - 蛋白质交互预测问题[100-102]。
表观遗传是指不能用 DNA 序列改变来解释的稳定遗传性状,DNA 甲基化是其重要组成部分,是生物信息学研究的重要方面。清华大学利用分离比较策略第一次系统地研究了多能细胞非 CpG 甲基化的单链特异性分布[103];哈尔滨医科大学通过系统辨别和标注DNA 甲基化特征,揭示了调控细胞身份基因的低甲基化现象[104],并提出新的标注策略以解析癌症中长链非编码RNA 的甲基化特征[105];东北师范大学与哈尔滨理工大学提出新的整合统计算法,以发现细胞、组织和个体上DNA 甲基化的差异[106];中科院北京基因组研究所开发了软件分析DNA 甲基化模式的分布,以对表观异质性定量化[107];上海师范大学和复旦大学还针对癌症研究中肿瘤纯度问题提出DNA 甲基化的分析方法[108,109]。
三维染色质结构是重要的表观遗传学因素,我国学者在这方面多项工作与国外同步走在前列。清华大学针对ChIA-PET 数据开发了鉴别染色质相互作用的方法[110]、整合的ChIA-PET数据处理工具[111]和利用层次狄利克雷过程从ChIA-PET 数据中寻找辅助因子复合物的方法[112];北京大学和华中农业大学分别开发了新的用Hi-C数据探究染色体动态可接近性和拓扑结构域的方法[113,114];清华大学利用核小体驱逐、多种辅助因子绑定,预测了雌激素受体的远程相互作用[115],利用贝叶斯框架在3C染色质捕获数据上对三维空间结构进行了建模[116]。复旦大学利用Hi-C数据与系统发育关系预测人类基因组远端调控因子的目标基因[117];北京放射医学研究所整合三维数据、近端信号和连锁不平衡,构建人类非编码SNP 作用基因的数据库[118],并利用三维数据和染色质状态鉴别CTCF 的多种功能[119]。
染色质可接近性、组蛋白修饰是重要的表观遗传学特征。清华大学用深度学习的方法实现了染色质可接近性的预测[120];中科院数学院开发一种分析染色质修饰差异的方法, 可用来发现细胞特异性调控元件[121];同济大学整合了大量人类和小鼠的可接近性数据和H3K27a 数据对顺式调控进行建模[122,123]。超级增强子具有宽阔的开放性染色质状态,可同时调控附近多个基因表达,清华大学构建了人和小鼠超级增强子数据库 dbSUPER[124], 已被人类基因数据库 GeneCards 整合使用。哈尔滨医科大学整合了多物种超级增强子并标注了它们调节细胞身份基因表达的潜在能力[125];同济大学建立了人和老鼠中染色质调控子与组蛋白修饰关系的数据库[126];华中科大收集了超过 580 个实验验证的组蛋白调节子,构建了读、写、擦除组蛋白乙酰化和甲基化的数据库[127]。
合成基因线路构建是合成生物学的基础,近五年来,清华大学与 MIT 合作,利用一族正交 TALER 元件构建了具有良好性能的双稳态开关,并证明该双稳态开关可以精确利用 miRNA 表达识别不同细胞系[128];清华大学通过拆分 dCas9 蛋白的方法设计与逻辑门, 扩展了 dCas9 系统的应用范围[129];北京大学利用反向工程对三节点调控网络拓扑进行枚举仿真,以此为基础设计了可以感知细菌群体效应化合物的开关[130]。
长期以来,合成基因线路构建相对复杂耗时,清华大学发展新的 DNA 连接技术,实现了高效的多miRNA 表达质粒构建[131];北京大学和中科院微生物所综合运用系统仿真、参数测定和前馈控制等技术手段,提出一套利用相互绝缘的转录调控元件构建基因线路的方法,提高了合成基因线路精确度[132]。清华大学基于流平衡分析的方法开发了提高代谢工程设计效率的工具[133],还与斯坦福大学合作开发了CRISPR 序列设计工具,满足了多物种、多用途 CRISPR 序列设计需求[134]。
合成生物学通过“以建而学”的方式借助合成基因线路了解生命系统中的调控机制。清华大学用微分方程建立 miRNA 与 ceRNA 关系的定量模型,用人工表达 miRNA 与ceRNA 的合成基因线路验证并修正模型,揭示了分子数量、结合位点数、结合能力和分子降解速度等因素对调控过程的影响,提出了这一过程中的非对称调控特性并将其应用于siRNA 设计中[135];中科院深圳先进院与哈佛大学合作,利用合成生物学技术手段改造大肠杆菌菌株,在保持细胞生长速度不变的情况下实现细胞生长时直径或长度的定量控制,揭示了DNA 复制和细胞大小间的互相协调的机制[136]。
合成生物学技术有广阔应用前景,深圳市第二人民医院用 CRISPR/Cas9 系统设计了可感知膀胱癌细胞特异性信号的与逻辑门,实现了在体外对膀胱癌细胞的特异性识别和控制[137];华东师大将合成基因线路与智能手机结合,血糖仪将血糖信号传输给智能手机, 当血糖过高时启动皮下的远红外线灯,控制光敏的基因线路合成胰岛素或胰高血糖素样肽 -1,使机体的血糖维持在合理水平,实现了与人体生理调控对象的闭环[138]。
生物信息学发展迅速,研究范围不断扩展,内容不断深化。我国生物信息学研究在近几年取得了长足的发展,在对各种组学数据的处理和分析方法、多种类型数据的整合、定量系统生物学与合成生物学研究等方面都已经走进世界先进行列,在中医药系统生物学与网络药理学相关研究上更是独树一帜。但是,我们清楚地看到,由于生命科学领域大部分关键实验和检测技术都是国际同行取得的,这些技术所带来的新的数据是驱动生物信息学乃至整个生命科学发展的关键,而信息领域的多项核心新技术也是源自国外,我国的生物信息学发展总体上仍与国际最先进水平有差距,尽管这一差距在近五年已经明显缩小。我们也欣喜地看到,我国科学家在如单细胞RNA 测序、合成基因线路等基因组学和合成生物学技术方面已经开始取得国际领先的成果。可以预见,伴随着相关学科的发展,我国在生物信息学领域的研究和应用将会全面进入国际前沿行列。
