生命大科学:从微观到介观的组学研究
中国网/中国发展门户网讯 在20世纪中叶,研究者在物理学和化学之理论与实验技术的推动下,成功解析了蛋白质的空间结构并提出了DNA双螺旋模型;分子生物学在此基础上诞生,进而开启了在分子水平上研究生命及其活动的现代生命科学时代。生命科学建立在还原论的基础之上,即生物体与非生命物体没有本质的区别,都要遵循严格的物理学和化学的规律,可以在分子层面上通过对个别基因或蛋白质的结构与功能来认识和阐明细胞乃至个体的生命活动。这个时期的研究者采用“碎片化”的模式来研究生命及其生理或病理活动。
但是,研究者逐渐认识到,生命活动并非是由一个个基因或蛋白质“零件”独立完成的,而是建立在生命体内众多基因、蛋白质和其他化学小分子形成的复杂相互作用之上;对于高等生物而言,除了分子层面复杂的相互作用网络外,还有着细胞、组织和器官等不同介观层面各种组分之间的相互作用。因此,生命活动是这样一种复杂系统的整体行为。显然,要真正揭开生命的奥秘,需要从整体角度来研究生命复杂系统的各种相互作用网络,以及相应的生理病理活动。随着20世纪末基因组测序技术和其他研究技术的发展,国际科学界启动了跨世纪的“人类基因组计划”。在这个国际大科学计划的推动下,生命科学的研究范式逐步从局部研究策略转变到整体研究策略,正如Nature杂志在一篇评论该计划的社论中所说:“似乎在一夜之间就从一个基因、一个蛋白质、一个分子、一次研究一个,转变为所有基因、所有蛋白质、所有分子、一次研究所有。一切都按组学的规模进行。”
分子层面的多组学研究
20世纪中叶兴起的现代生命科学研究表现出典型的“个体户”特征,即以众多项目负责人(PI)领导的小规模实验室为研究主体,可以称为“小科学”模式。随着世纪之交“人类基因组计划”的启动,生命科学领域出现了全新的大科学研究形态。由多个科研团队组织起来,针对某一具体研究目标共同开展研究的“联合体”(consortium)已经成为生命科学领域的常态,如:研究精神分裂症的国际“精神病基因组学联合体”(Psychiatric Genomics Consortium),以及美国国立卫生研究院(NIH)组建的“国际十万人队列联合体”(International Hundred Thousand Plus Cohort Consortium)——涉及43个国家100多个人群队列的研究。但是,生命大科学并不仅仅表现为研究队伍的规模大,还有其他值得关注的特征——在此笔者着重讨论以下两个方面。
数据驱动的研究新范式
建立在分子生物学基础上的现代生命科学之主流是假设驱动的研究范式:通常以解决具体的科学问题为主要目标,采用生物学实验去分析和验证针对特定科学问题的相关科学假设。
然而,“人类基因组计划”等生命大科学研究却不是科学假设所驱动,表现出一种数据驱动的研究新范式,其首要目标是去获取海量的生物学数据。自“人类基因组计划”实施以来,不仅有针对各种生物大分子的组学研究,如研究RNA表达谱的转录组学、研究蛋白质组成和丰度的蛋白质组学,而且还衍生出许多相关的组学研究,如研究DNA或RNA修饰的表观遗传组学、研究蛋白质翻译后修饰的蛋白质修饰组学。此外,还产生了针对糖类分子的糖组学、针对脂类分子的脂组学、针对代谢物等生物小分子的代谢组学。可以说,基于数据驱动的组学研究策略已经被广泛地用于分子层次的各种类型的生物分子研究,其特点就是全局性的高通量数据采集与分析。例如,2022年Science杂志发表了一项涉及英国12000多名癌症患者的全基因组测序工作,研究者从中发现了近3亿个单碱基置换(substitutions)、260多万个双碱基置换(double substitutions)、1.5亿多个插入或缺失(indels)和近200万个重排(rearrangements)。
更重要的是,这些生命科学大数据分析能够提供过去生物学小数据所不能提供的信息。例如,研究者通过对27万名欧洲血统参与者的全外显子组序列数据分析,发现了许多常见疾病的罕见基因变异。2024年Nature杂志发表了一篇目前世界上最大的人类全基因组等位基因频率的数据库(Genome Aggregation Database)的分析文章,研究者从76156个体的全基因组测序数据中提取出各种基因变异,进而构建了用来度量自然选择对人类基因组各个区域发生突变的限制程度之“变异受限图谱”(genomic mutational constraint map)。
由于数据驱动的项目之研究目标和内容不依赖于单一的科学假设或科学问题,所以其研究数据可以用来进行众多科学问题的研究。这一特点在健康医学领域有着突出的表现,最成功的案例是英国的UK Biobank——该生物银行收集了50万名中老年英国志愿者的血液和唾液等生物学样本,以及电子健康档案和全外显子测序等生物学数据。自2012年建成至今,全球来自90多个国家的3万多名注册用户使用了该数据库,并基于这些数据发表了9000多篇与健康和疾病相关的研究论文。UK Biobank于2023年11月30日正式宣布完成了这50万名志愿者的全基因组测序,经批准的研究者可以在“UK Biobank Research Analysis Platform”上访问这些数据。UK Biobank的数据量预计在2025年将达到40 PB。在UK Biobank成功的基础上,英国又在2022年10月启动了一个更宏大的研究项目——“我们未来的健康”(Our Future Health)。该项目计划招募500万名英国志愿者,以获取他们的生物学样本和健康信息及生物学数据;希望通过该项目的实施为抗击疾病的“关口前移”提供科学指导和技术支持,并借此推动健康新业态、新产业的发展。中国科学院2020年启动的战略性先导科技专项(B类)“多维大数据驱动的中国人群精准健康研究”也同样属于数据驱动的生命健康大科学研究项目;该专项计划在5年时间内进行大规模人群生物学样本和相应的多组学数据的采集和分析,进而基于这些数据开展中国人群生命健康方面的各种研究。
生物学大数据目前已经成为生命科学研究的重要战略资源。在国家数据局等部门最新联合发布的《“数据要素×”三年行动计划(2024—2026年)》中,第9条明确提出,“促进重大科技基础设施、科技重大项目等产生的各类科学数据互联互通,支持和培育具有国际影响力的科学数据库建设,依托国家科学数据中心等平台强化高质量科学数据资源建设和场景应用。以科学数据助力前沿研究,面向基础学科,提供高质量科学数据资源与知识服务,驱动科学创新发现。……探索科研新范式,充分依托各类数据库与知识库,推进跨学科、跨领域协同创新,以数据驱动发现新规律,创造新知识,加速科学研究范式变革”。由此可见,中国科学院在2019年启动的“国家生物信息中心”建设显然就是国家科学数据战略的一个重要组成部分。
迭代演进的研究新模式
数据驱动的生命大科学研究新范式的另一个重要特点是“迭代”(iterate),即组学研究的成果通常不是完备的,其每一次组学研究工作类似于计算机软件开发——研究者可以在旧版软件的基础上不停地迭代出新版本,组学数据或研究成果可以不断被完善。“人类基因组计划”就是生命组学“迭代”的典型:2001年2月,Nature杂志发表了人类基因组测序“草图”,它仅仅覆盖了人类基因组90%核酸序列;在2003年“人类基因组计划”正式宣布完成后,2004年10月在Nature杂志发表的论文也只给出了人类基因组常染色质区域内大约99%核酸测序结果;2022年4月,研究者在时隔基因组草图发表22年之后于Science杂志发表了“人类基因组完整序列”——终于完成了人类全基因组30亿个碱基对的测定,比2004年发表的基因组测序版本增加了近2亿个碱基对和近2000个新基因。
需要指出的是,“人类基因组计划”是一个目标明确的大科学计划——测定人体基因组全部碱基序列,其目标的完成情况在一次次迭代中可以进行准确的评估。但是,对于检测基因组基因表达情况的“转录组学”和蛋白质种类与数量的“蛋白质组学”等其他类型的组学研究则很难按照基因组研究的方式进行,因为这些生物大分子在机体内的总数很难确定。例如,一个蛋白质组的所有蛋白质种类不仅与其基因组的基因总数及mRNA的可变剪切有关,而且还与蛋白质翻译后修饰有关。人类基因组内的基因数量估计在2万个左右,但蛋白质种类估计在20万到200万之间。2014年5月,2篇人类蛋白质组草图的文章在Nature杂志上发表;其中,一篇采用质谱技术检测到了来自17294个编码基因的蛋白质类型,另一篇同样利用质谱技术检测到了18097个基因编码的蛋白质。显然,这些蛋白质组草图离完整地反映人类蛋白质种类还差得很远。
更具挑战性的是,在多细胞生物体中,转录组或蛋白质组的构成不同于基因组的构成。后者在个体的所有细胞里基因组碱基序列基本是一致的和稳定的,而前者在不同种类的细胞里有着不同的组成类型和丰度,而且在不同发育阶段和不同生存环境下不停地变化。不久前,我国科学家启动了一个国际大科学计划——“人体蛋白质组导航计划”(Proteomic Navigator of the Human Body,π-HuB);该计划为期30年(2023—2052年),将在首个10年完成对人体近40万亿细胞的蛋白质组图谱,以及与生活方式相关的蛋白质组图谱的系统绘制和解析。可以这样说,即使到2052年之后,人类蛋白质组研究依然处于“迭代”过程中;正如π-HuB计划首席科学家贺福初所说:“π是一个无穷无尽的数,而科学是‘无尽的前沿’,我们希望通过‘π’致敬对科学的无限追求。”
介观层面的多组学研究
细胞是生物体的基本结构单元和功能单元。对于多细胞生物而言,个体是由数量众多的、不同种类的细胞构成——单个受精卵细胞在发育过程中通过细胞增殖方式增加细胞的数量,并利用细胞分化的方式形成不同的细胞类型,进而发育成为各种组织和器官。传统的细胞分类主要是依据细胞形态、空间位置和生理性质等表型特征。据此研究者推测,组成人体的近40万亿个细胞可能由200—300种细胞类型所构成。
随着单细胞核酸测序技术的成熟,国际生命科学领域启动了一个比“人类基因组计划”更为宏大的大科学研究计划——“人类细胞图谱”(Human Cell Atlas,HCA)。该计划目前有近100个国家约3000名科学家参与,其总体目标是“采用特定的分子表达谱来确定人体的所有细胞类型,并将此类信息与经典的细胞空间位置和形态的描述连接起来”。从此,单细胞组学成为生命科学一个新的前沿领域:从个体发育到肿瘤发生/发展等各种生理或病理活动的研究中都能看到大量基于单细胞组学的研究工作,研究者的视野从分子层面进入到细胞层面乃至组织器官层面。2024年1月22日,Nature杂志发布了2024年值得关注的七大技术,其中就包括了细胞图谱。
时空交汇的细胞图谱研究
细胞图谱的研究最初是基于单细胞转录组测序技术。浙江大学的研究者于2018年在Cell杂志上发表了全球首个哺乳动物细胞图谱,涉及小鼠近50种组织的40余万个细胞;2020年,该研究团队在Nature杂志报道了他们的另一项工作——利用高通量单细胞转录组测序技术构建了人体细胞图谱,从胎儿和成人的8个主要器官的60种组织中鉴定出100余种细胞大类和800余种细胞亚类。
虽然“人类细胞图谱”当前最常用的单细胞研究技术是转录组测序,但是在分子水平对细胞进行分类的测量技术显然不会局限于此:“这种分子标志物的集合还将包括非编码基因的表达水平、转录本可变剪接的水平,每个启动子和增强子的染色质状态,以及每个蛋白质表达水平和它们的每一种翻译后修饰状态等”。为此,研究者发展了一系列可用于单细胞研究的组学技术。例如,北京大学研究者发展了一种组学水平的单细胞染色质测序技术(single-cell chromatin overall omic-scale landscape sequencing),可以对1个单细胞同时进行染色质状态、DNA甲基化、基因组拷贝数变异及染色体倍性的全基因组测序技术。由于蛋白质组成的复杂性和不可人为扩增性,单细胞蛋白质组研究一直是该领域的技术难点。2023年,国际蛋白质组学权威及其合作者发表了一篇关于单细胞蛋白质组研究技术的文章,为解决该难题提供了可能的解决方案。
随着单细胞测序技术的进步,组学研究进入了更大的介观层次——组织乃至器官。研究者发展了把影像技术和单细胞转录组测序结合在一起的“空间转录组学”(spatial transcriptomics)。瑞典研究者利用这种技术检测了人体胚胎心脏发育过程中不同时间点的组织切片,构建了首个具有单细胞空间分辨率的人体心脏发育图谱。近年来,研究者进一步发展了多种技术整合的“空间组学”(spatial omics)。例如,美国耶鲁大学研究者发展的一种空间组学技术“DBiT-seq”,可以同时完成组织切片的空间转录组测序和蛋白质组检测。此外,深圳华大生命科学研究院牵头的时空组学联盟(The Spatio Temporal Omics Consortium)将“DNA纳米球阵列”(DNA nanoball-patterned arrays)与“原位RNA捕获”(in situ RNA capture)整合形成一种新的“Stereo-seq”技术,其分辨率可达500 nm,视野可达13 cm×13 cm;研究者利用该技术获得了单细胞分辨率水平小鼠器官形成的时空转录图谱。2023年,一篇题为“空间组学的曙光”的综述文章详细地介绍了用于空间组学的各种技术,以及这些技术之间的组合与运用。
空间组学技术目前已经用于解析复杂的脑组织。例如,2023年华大生命科学研究院联合中国科学院神经科学研究所等单位在Cell杂志上发布了迄今为止最完整的灵长类脑皮层细胞图谱——研究者利用其发展的“Stereo-seq”技术及高通量单细胞核转录组测序技术等,对猕猴大脑皮层的143个脑区进行了空间转录组研究,获得了基于特定转录组模式的264种皮层细胞类型。2023年10月13日,Science杂志发表了题为“脑细胞普查”(Brain cell census)的专辑,一共21篇关于人类和非人灵长类动物大脑细胞图谱的研究论文同时在该杂志及其子刊发表。可以说,当前空间组学技术正在为人们认识生命的复杂结构和生理病理活动提供着前所未有的高精度图像和信息。
整合视野下的生命组学
超越了分子层次和细胞层次的空间组学不仅提供了组织器官结构的精细信息,而且为认识生物体整体演化和调控规律开创了新路径。美国NIH于2019年启动了一个名为“人类生物分子图谱计划”(Human Biomolecular Atlas Program,HuBMAP),旨在开发在细胞分辨率水平绘制人体组织器官图谱的开放式框架和技术,其核心就是要建立一个涵盖不同尺度的人体整合组织图谱。Nature杂志在2023年发布了一个介绍了HuBMAP进展的论文集(go.nature.com/3vbznk7)。2023年,我国中山大学研究者和英国剑桥大学研究者牵头的国际合作团队在Nature杂志发表了一篇关于肢体发育的文章,研究者基于空间转录组技术构建了人胚胎肢体发育过程中的细胞图谱;不仅确定了组成胚胎期肢体的67个特定细胞簇,而且还揭示出不同时空的基因表达如何调控了精确的细胞死亡,从而保证了肢体的正确形状之实现。
细胞图谱研究策略打破了传统的还原论研究范式——将高层次的生命活动“还原”到分子层次进行研究和解释,倡导从整体的角度研究和理解生命。2024年,美国洛克菲勒大学的研究者在Science杂志上发表了一篇从“超细胞尺度”(supracellular)来研究形态发生的论文;研究者以鸡胚胎的皮肤作为研究模型,系统地分析了形态因子(morphogen)对不同空间位置细胞的物理性质之影响,并明确指出“理解这一多尺度过程需要区分细胞尺度上形态形成的近端效应和超细胞尺度上形态形成的功能效应”。2024年,我国研究者报道了一种单细胞水平的转录因子时序荧光原位杂交技术(TF-seqFISH),研究者利用该技术解析了各种转录因子在人脊髓发育过程中的空间表达规律,进而揭示了不同的神经祖细胞亚型沿背腹轴的空间分布模式,以及在内外轴方向上进行的神经发生、分化、迁移及成熟等过程。
这种研究范式的转变不仅发生在正常的生理过程研究,而且也被用于病理过程的研究。美国国立肿瘤研究所(NCI)于2020年启动了一个名为“人类肿瘤图谱网络”(The Human Tumor Atlas Network)的大科学研究项目,计划从分子、细胞、组织器官等不同层次获取各种类型肿瘤的数据,并与肿瘤患者的临床数据进行整合,从而形成多尺度的肿瘤图谱,为肿瘤患者和高危人群进行更好的医学干预提供科学依据。2023年,芬兰研究者在一篇论文中报道了利用单细胞转录组测序和CRISPR基因编辑技术等方法对人体免疫系统里的“自然杀伤”(NK)细胞与血液癌细胞的相互作用之研究,揭示出不同血液癌细胞对NK细胞的敏感性存在显著差异,而且不同的癌细胞会引起NK细胞发生不同的转录组变化。
我国在整合型生命大科学研究方向最具代表性的是由复旦大学研究团队牵头的人类表型组国际大科学计划——“国际人类表型组计划”(Human Phenome Project)。该计划在2017年立项,现已进入项目实施的“二期”阶段,其核心目标是对人体从分子层面到细胞层面、组织器官层面乃至个体层面对各种人体特征进行精密测量和分析。目前,该计划已经取得了4个“全球第一”,包括:研发了“中华家系1号”——全球第一套多组学标准物质;建立了国际上首个自然人群深度表型组队列——每个参与者被测量了近2.5万个表型;绘制了第1张人类表型组导航图;建成第1个多维度的人类表型组精密测量平台。中国科学家与美国和欧洲多国科学家组成了国际人类表型组研究协作组(International Human Phenome Consortium),计划最终将在全球各大洲代表性人群中进行5万人、每人10万个以上表型指标的全景测量和超过50万人的特定表型应用示范测量。
综上所述,以“人类基因组计划”为代表的生命大科学之兴起正在改变着生命健康领域的研究“版图”。目前,我国科研力量在国际生命大科学领域总体处于“并跑”的位置,在一些研究方向上处于“领跑”的位置。为了更好地推进我国生命大科学的发展,需要注意加强3个方面的工作:进一步加强和完善有组织的科研之管理机制体制。这类生命组学研究通常都涉及多个实验室乃至多个研究单位的参与,国际合作项目还要涉及不同国家的科研力量;需要发挥好牵头单位的组织力量,在课题管理和资源分配及成果共享方面要给予相应的保障。建立或完善相关的规模化组学研究技术平台。这些集中了大量先进仪器设备和技术的平台是支撑规模化组学研究高效实施的基础。例如,在蛋白质组研究领域,新成立的广州“慧眼”大科学设施就是支撑“人体蛋白质组导航计划”实施的必要条件。加强对生命健康科学大数据的开放与共享。一方面要保证这些项目执行中产生的组学研究数据和其他相关数据的安全和伦理治理,另一方面也要落实项目内外研究者对相关数据的共享与利用。
(作者:吴家睿,中国科学院分子细胞科学卓越创新中心 上海交通大学主动健康战略与发展研究院。《中国科学院院刊》供稿)