|
高性能计算在生命信息领域应用不断拓展
生物计算,包括 DNA 数据处理、蛋白质结构预测、脑模拟等,近 20 年来,呈现快速发展态势。这些计算大部分也是数据密集型的。
在基因数据处理应用方面。高通量测序技术的进步,推动了基因数据爆炸性增长。然而,DNA 包含信息的复杂性,仍对数据分析算法提出新挑战。机器学习在基因组分析与预测的多个方面获得研究与应用,如识别转录起始位点/剪切位点/TF 结合位点、预测基因功能/疾病表型等。深度学习应用的最新突破已经在预测性能方面超过了许多传统的统计推断算法,并且机器学习在基因组学中的癌症诊断、临床遗传、作物改良、流行病、公共卫生、人口遗传、进化、功能基因组等均具有明显发展潜力。当前,大多数问题的预测能力都没有达到实际应用的预期,对这些抽象模型的解释也没有阐明深刻的认识。如何有效利用机器学习获取更强大、更智能的基因组解释能力,还需要探索依赖于特定任务的机器学习模型。
在蛋白质结构预测应用方面。蛋白质结构预测与设计对深入理解蛋白质结构和功能具有重要意义。蛋白质是一切生命系统的物质基础,但其生物功能的发挥,需要蛋白质正确折叠为特定的 3D 结构,蛋白质折叠研究也是药物设计的基础。实验学的方法如 X 射线(X-ray)、核磁共振(NMR)和冷冻电镜解析蛋白质 3D 结构普遍存在设备昂贵、时间和人力成本过高等问题。开发能够自动、快速、准确地将未知蛋白序列分类为特定折叠类别的计算预测方法成为计算生物学家长期努力的方向。使用深度卷积神经网络和残存网络高精度的预测蛋白中的氨基酸-氨基酸接触作用,并将预测结果直接用于蛋白质 3D 结构重建是近期的一个热点。谷歌 DeepMind 将 AlphaGo 转型,开发了可预测蛋白质折叠的程序 AlphaFold,并以该项目参加了全球蛋白质结构预测竞赛 CASP13,取得了优异的成绩。麻省理工学院(MIT)的 Belpler 和 Berger利用人工智能(AI)技术,直接通过氨基酸序列预测蛋白质分子的生物学功能。
在脑模拟和脑科学应用方面。脑病变给人类带来的经济和生活负担远远超过其他领域,已成为全球致残的首要因素。2013 年欧盟推出了 15 个欧洲国家参与、预期 10 年的“人类脑计划”,该计划侧重于借用超级计算机技术,通过研究脑连接图谱模拟脑神经网络功能。自该计划以后,其他国家纷纷提出各自脑计划。人脑大约由 1010个神经元和 1014个突触组成。现有的模拟研究多用于小区块模拟,规模约 105个神经元。小规模模拟存在明显局限性,其中神经元连接的约 50% 突触分布在区块以外,而功能回路在整个大脑内完成,区块之间相互影响明显。全脑模拟计算规模巨大,现阶段难以实现。当前,已达到的最大规模脑网络模拟是基于开源软件 NEST 完成的。该网络包括 1.51×109个神经元和 1.68×1012个突触,在日本超级计算机 K(共 88 128 节点,每节点 8 核,2 GHz,16 GB RAM)上全节点运行模拟。该模拟达到了人脑规模的 10%。
在新药创制应用方面。高性能计算可在加速药物研发,降低药物开发风险的多个方面发挥重要作用,如超大规模筛选药物先导化合物、大规模搜寻药物潜在靶点、精确计算蛋白配体自由结合能、精确计算电子级别靶点药物共价和非共价作用、复杂生物体系模拟、药物网络化相互作用等。国内,北京大学、中国科学院上海药物研究所、上海交通大学在相关领域做出了可喜成果。