|
计算生物学之基因测序
现状
从管中窥豹的DNA分子排列,到暗藏杀机的复杂遗传疾病;从小分子代谢物流转不息,到眼角眉梢的巧笑嫣然;见微知著地贯通微观到宏观是无数遗传学家思考毕生的问题。前瞻性队列研究是流行病学的基本观察性研究设计之一,自20世纪70—80年代起,世界各国陆续开始建立长期随访的人群队列。新建立的人群队列,如中国法医分子画像样本库、荷兰Rotterdam队列、英国双生子队列、英国ALSPAC队列、美国波士顿队列、澳大利亚QIMR队列、拉丁美洲CANDELA队列等,其规模越来越大,且包含较为全面的健康结局信息、环境暴露信息和社会学信息。这些数据具备部分大数据的特征:大型队列的规模已经达到了50万种样本以上,且采样精度不断提高,通过整合基因组学、转录组学、表观组学、蛋白组学、代谢组学、免疫组学和影像组学等多维数据,数据量迅速扩大;表型数据包含非结构化图像、音、视频等高度异质性数据,并且存在复杂的关联关系,呈现出多样性和异质性;借助电子健康记录及智能传感设备,数据更新频繁。深入解析这些数据是精准医学和DNA表型刻画等多领域的核心目标,在复杂疾病的个性化预防、诊疗和指导公安刑侦破案等方面有重要的应用价值。
对领域应用的促进
随着测序技术不断发展和各国对普惠健康领域投入的增加,新建立的人群队列规模越来越大,且包含较为全面的健康结局信息、环境暴露信息和社会学信息,这些数据具备部分大数据的特征。未来由队列联盟整合的跨国人群队列的样本规模会达到千万级,传统分析手段的处理效率难以适应数据的产生速度。与此同时,借助电子健康记录及智能传感设备的实用,频繁更新的多维表型组学数据形成了高度异质的数据集合。深入解析这些数据需设计高效合理的数据库架构以对多源、异构数据的清洗、标准化和存储,并引入新算法进行处理。
发展趋势
面对样本量和数据维度的爆炸性增加,生物信息学也迎来了技术拐点。科研界和工业界共同发力,许多经典的生物信息学算法和流程通过使用高性能计算资源,提高了生产效率,增强了系统易用性,降低了存储管理难度;而针对高性能计算平台开发的机器学习、深度学习算法,也在解析多维数据复杂因果关系及交互作用网络方面崭露头角。以经典的全基因组关联分析为例,配合高性能运算平台的高算力开发的新统计学习算法,可以极大提高统计效力,从而发现以前未发现的影响人类复杂表型的遗传因子,深入理解其遗传结构。对于复杂疾病来说,这能够提供明确的分子通路和基因靶标,进而完善复杂疾病的个性化预防、诊疗、分子分型、预后等健康管理方案。对于人类复杂外貌表型来说,也可以基于发现的遗传因子建立外貌表型预测模型,推动协助刑事案件侦查、海关检验和移民管理等工作进入主动、精确、智能的新时代。将来,高性能计算将进一步推动面向生命科学研究的机器学习和深度学习的算法开发,助力数据聚类、建模预测、文本挖掘、图像识别等领域开展数据驱动型研究。