生物医学大数据发展的新挑战与趋势

发布时间:2018-09-07 11:49:40  |  来源:中国网·中国发展门户网  |  作者:张国庆 李亦学 王泽峰 赵国屏  |  责任编辑:赵斌宇
关键词:生物医学,大数据,整合,交互,数据挖掘

 

中国网/中国发展门户网讯  人类基因组计划启动以来,以新一代测序技术和质谱技术为代表的各类组学技术的飞速发展,推动了基因组、转录组、表观遗传组、蛋白质组、代谢组等海量生命科学组学数据的指数级的增长。一方面,机器学习和人工智能技术极大提升了医学影像和分子影像技术的分析能力,正在改变以影像组、放射组为代表的医学影像数据的应用方式。高通量实验技术的突破,直接把生物医学数据从以基因组为代表的 PB 量级时代推升到多组学融合的 EB 量级时代。另一方面,人群队列研究、分子流行病学研究产生了大量长时间、广空间的数据,表型组从分子、细胞、组织、器官、个体等多层面描述了高维数据,真实世界数据(real world data)回顾性地汇总分析海量的临床信息数据,这些数据构成了复杂的高维度生物医学大数据。

我们已经进入了具备相当深度和广度的生物医学大数据时代。生物医学临床数据呈现数量巨大、增长迅速、质量控制困难、来源广泛繁杂、难以标准化与结构化等特点,生物医学研究数据呈现种类繁多、内部结构高维复杂、内涵丰富、数据相对分散、难以高维度多层次交汇共享等特点,生物医学数据总体表现为数据零散分布、难以有效整合分析,从而导致难以挖掘生物医学大数据的潜在高价值。对我国生物医学而言,数据无汇交机制,导致存储碎片化、管理分散、流失损耗严重;数据无安全保障,无国际交流窗口,被迫持续成为世界最大组学数据输出国;数据无共享平台,标准化管理混乱,质量参差不齐,开放共享受国际、国内的政策与技术的双重限制。

生物医学研究正在发生面向数据密集型的第四科学范式的深刻变革,如何实现从“组学”到临床与健康人群数据的生物医学大数据的交汇、综合管理、利用和共享,将多层次临床与研究数据进行深度挖掘和高维度、全方位的有机整合,将大数据迅速转化为新知识,成为我们所面临的挑战,其中研究建设下一代生物医学大数据存储、共享和转化中心的关键要素(图 1)。

以递交为基础、以整合为导向的数据存储

早在 20 世纪 80—90 年代,美国、欧洲和日本即已分别建立世界三大生物数据中心,即美国国家生物技术信息中心(NCBI)、欧洲生物信息研究所(EBI)和日本DNA 数据库(DDBJ)。这三大数据中心经过近 3 0年的建设,已经形成了完备的数据汇交技术体系,在基因组、转录组、蛋白质组等领域发挥着重要影响力。国内机构也已经开始按照数据类型建设了 GSA[12]、iPROX、WDCM[13]等基因组、蛋白质组、微生物资源等组学数据中心。我国健康医疗大数据中心的“1+5+X”规划已经落地,即国家数据中心与江苏、福建、山东、安徽、贵州的东、南、西、北、中 5 个健康医疗大数据区域中心已经形成,将容纳全体公民健康医疗大数据。

各类已建、在建的生命科学和健康医疗数据中心,极大地丰富了生命科学、临床医疗等生物医学大数据的采集能力。但是随着数据规模的增加,如何更加有效地利用数据成了挑战。传统的数据模型和数据组织方式,已经无法满足海量数据的结构、数量快速增长以及数据结构不断变化的管理需求,难以按照实际情况动态调整。对于已有或者将要建设的综合性生物医学大数据平台而言,有必要突破传统的严格按照一类数据建设一个数据库的模式,采用新的仓储式的数据仓库模式,在底层数据结构上以整合为导向,按照样本、宿主、环境等信息,以及时间、空间信息,预留不同类型的数据之间的联系,形成弹性的数据结构,支持数据结构动态调整,为后期数据集成与整合工作奠定坚实的基础。

1  2  3  >  


返回顶部