创新科学结构图谱对中美基础研究影响技术创新的揭示
中国网/中国发展门户网讯 从20世纪开始,开展基础研究的目的已逐步从单纯满足科学家自由探索自然现象和规律,转向更加注重服务于人类社会发展和国力竞争的需要。但长期以来科研管理人员与科技决策者缺乏基础研究对技术创新影响的全景分析方法与数据,难以分析基础研究对技术创新与产业的影响。2017年,有研究提出专利对论文的直接引用为分析基础研究对产业的影响提供了一个分析途径,使得基础研究对产业的影响变得有可能被量化和跟踪。通常来说,有价值的专利是商业公司创新的基础,而通过基础研究突破推动的科技创新更有可能引领行业发展乃至颠覆性创新。因此,被专利引用的基础研究论文代表着更具有转化成实际生产力的潜力,是影响技术创新的基础研究。
为追踪分析基础研究对技术创新产生的影响,发现其中对技术创新发展起到推动作用的热点方向,本文在国内首次基于被专利引用的ESI高被引论文(以下简称“高被引论文”),绘制了影响技术创新的全景科学图谱,通过可视化方法展示当今前沿基础研究对技术创新发展的影响情况,发现其中对产业发展起到更多推动作用的前沿基础研究热点方向。进一步,在热点方向上叠加作者、国家等论文信息,对比中美两国在这些对技术创新有影响的重要热点方向上的表现,为决策者了解中国基础研究对技术源头创新的贡献具有一定的价值。
数据与方法
本文选用了科睿唯安(Clarivate Analytics)公司基本科学指标数据库(ESI)2022年3月研究前沿中包含的前1%高被引论文,共计56 278篇(数据时间跨度2016—2021年);利用专利分析平台中专利引用论文数据进行遴选,共遴选出被专利引用的高被引论文9 767篇作为分析数据。
本文参考科学结构图谱分析原理与技术方法,首先,利用深度学习模型学习9 767篇高被引论文的同被引网络形成的复杂关系,将网络中的节点(论文)与关联关系(论文两两之间共同被引用次数)转换成节点的低维且稠密的特征向量形式。然后,利用流形学习可视化算法将低维空间中的节点向量投影到二维平面,从而绘制影响技术创新的科学结构图谱。该方法能有效保持高维数据的局部结构,使得引用关系相似的论文在二维可视化平面上依然紧密聚集,有利于识别研究热点区域。根据论文在可视化图谱中的分布,采用核密度算法自动识别出论文高度聚集的区域,进一步判断为热点主题。
需要说明的是,本文构建的创新科学结构图谱与传统科学结构图谱有所不同,图谱中的节点表示被专利引用过的高被引论文,着眼于反映基础研究对技术创新的影响。
影响技术创新的基础研究态势
构建创新科学结构图谱揭示技术创新的源头科学结构
为了深入揭示影响技术创新的基础研究的结构和特点,本文采用深度学习技术与可视化技术,分析了9 767篇被专利引用的高被引论文之间的关系分布,构建了影响技术创新的创新科学结构图谱(图1),揭示影响技术创新的科学源头结构。图中每个节点代表1篇被专利引用过的高被引论文,论文的研究内容越相似则在图谱中位置越接近,根据论文的相似程度在图谱中自然汇聚成群,形成研究主题。结合地理信息分析中区域密度图概念识别出密度较高区域,这些密度高的区域代表了在一个时间段内大量研究方向相近的影响技术创新的论文,可被视为一个正在影响技术创新的基础研究热点。
结合算法自动识别与人工判读,本文对图1中不同区域呈现出显著聚集效果的研究主题进行判读,标识了63个研究主题(表1),并按照研究主题的研究内容归成三大领域方向。生命科学,图中面积最大的区域为生命科学,几乎占了整个图谱的60%,包含了基因编辑技术、病毒疾病研究、肿瘤治疗相关研究、药物药理研究、神经科学与细胞等多方面的研究,研究主题包含了生物信息与基因组分析、基因编辑与治疗、新型冠状病毒(以下简称“新冠病毒”)诊断与治疗等33个。物质科学,主要包含凝聚态物理、光学、材料、能源、化学等多个学科的研究,研究主题包括量子计算、二维范德华材料、锂电池等20个。信息科学,包含深度学习模型与应用、人工智能医疗、第五代移动通信技术(5G)网络等10个研究主题。
研究主题
生命科学
寨卡病毒与登革热病毒;纳米药物;新冠病毒诊断与治疗;人类免疫缺陷病毒(HIV)抗体与疫苗;转录组功能研究;转基因作物;生物信息与基因组分析;基因编辑与治疗;呼吸机与吸氧设备;肿瘤靶向治疗;神经信号传导;肠道微生物;单细胞转录组测序;动物干细胞;亚细胞结构功能;恶性血液系统疾病化疗与免疫治疗;骨髓瘤治疗;乳腺癌靶向药;心肌细胞再生;PD-1/PD-L1免疫检查点疗法;免疫检查点抑制剂治疗副作用;癌症体液活检;前列腺癌检测与治疗;阿尔兹海默发病机制;血脂异常治疗;细胞衰老研究;白血病治疗;抑郁症药物;偏头痛预防药物;糖尿病药物与治疗;关节炎治疗;肝癌靶向治疗;生物乙醇
物质科学
量子计算;光谱学;超表面与超材料;自旋电子学;二维范德华材料;Mxene二维材料;锂电池;锌离子电池;合金材料;生物组织三维打印;钙钛矿电池;钙钛矿发光二极管;聚合物太阳能电池;柔性材料与可穿戴设备;金属有机骨架;析氢光催化剂;析氢光催化设备;发光材料;有机合成方法;各类催化剂
信息科学
深度学习模型与应用;人工智能医疗;三维重建与三维立体成像;视频图像智能编码;增强学习;人工智能故障诊断;第五代移动通信技术(5G)网络;区块链;智慧城市无线通信;无人机通信
从被专利引用的基础研究主题分布可以发现,影响技术创新的基础研究主要集中在3个方面:① 新生物技术与生物医疗技术方面,被专利引用的高被引论文覆盖量最多,包括基因编辑、单细胞测序等有巨大引用前景的新生物技术,新冠病毒、寨卡病毒、人类免疫缺陷病毒(HIV)等危害人类健康的病毒治疗,癌症、糖尿病、阿尔兹海默病这类社会负担重的疾病治疗。② 能源与材料方面,包括锂电池、钙钛矿电池、二维材料、柔性材料与可穿戴设备等。③ 新兴信息技术方面,包括人工智能医疗、量子计算、5G网络、区块链等。这些均是可能在未来可能引领产业革新、甚至引发颠覆性技术创新的基础研究。
影响技术创新的高被引论文的国家与机构统计分析
中国影响技术创新的高被引论文世界排名第2,增幅显著,但与美国的差距明显。从被专利引用的高被引论文数量的前10位国家来看(图2),美国优势十分明显,被专利引用的高被引论文数超过了全部数据的50%以上,共有5 363篇,远高于其他国家;中国世界排名第2,共有2 571篇;英国、德国、法国分列第3、4、5位。根据3期不同时间窗口ESI研究前沿统计被专利引用趋势(图3)来看,中国被专利引用的论文从第1期(2012—2017年)的1 563篇增长到第3期(2016—2021年)的2 571篇,增幅超过60%;美国的被专利引用论文数量基本保持平稳的态势。在全部高被引论文中,中国论文数量是美国的81.8%。但在被专利引用的高被引论文数量上,中国论文仅为美国的47.9%,与美国的差距明显。
中国科学院影响技术创新的高被引论文数量世界排名第2,中国排名第1。被专利引用的高被引论文数量的世界前10位机构统计结果显示,排名前10的机构中美国有6个,中国1个,法国2个,英国1个(图4)。美国哈佛大学表现较为亮眼,共有1 058篇论文,远远超过其他机构。中国科学院以598篇被专利引用高被引论文排名世界第2,中国排名第1。被专利引用高被引论文数量世界前200位机构中的中国科研机构共有10个,包括中国科学院、九校联盟中的7所大学、香港大学、武汉大学(表2)。相比在全部高被引论文中的排名,除中国科学院、清华大学与香港大学,其他7所大学在被专利引用的高被引论文排名略有下降。
影响技术创新的热点关键研究主题分析
结合核密度算法遴选热点关键研究主题,如果图谱中有超过一定数量的高被引论文出现了明显的聚集效果,形成了“热度高地”,代表着可能是这个时间段内有大量的研究内容相似的论文被专利引用了,则这个高地区域内的论文很可能是1个影响产业与技术创新的热点关键研究主题。根据论文数量(超过50篇论文)与热度(密度等级第3级以上),结合人工判读,本文从63个研究主题中遴选出18个热点关键研究主题(以下简称“热点主题”),如图5所示。
由图5可以看出,生命科学领域被专利引用的高被引论文数量远超过其他领域,遴选出的热点主题热度最高,数量最多,达到8个;物质科学领域遴选出7个热点主题;信息科学领域遴选出3个热点主题。表3为18个热点主题中论文详细统计。
生命科学
生命科学中遴选了8个热点主题,这8个主题中被专利引用的高被引论文数量超过其他学科。从创新科学结构图谱中可以清楚地观察到,8个热点主题主要是3个子领域方面的研究,分别为基因编辑技术、病毒治疗、恶性肿瘤治疗,均和人类健康息息相关,并有巨大的应用潜力。从被论文引用和被专利引用的表现上看,美国在生命科学领域优势明显,被专利引用的论文数量较多。除新冠病毒诊断与治疗和寨卡病毒与登革热病毒2个主题外均高于世界均值,美国的篇均被专利引用频次在基因编辑与治疗、免疫检查点疗法及副作用2个主题中也有较大的优势(表4)。
基因编辑技术。在健康、农业等多个领域已经展现出巨大的应用潜力,本文遴选了生物信息与基因组分析、基因编辑与治疗和单细胞转录组测序3个热点主题,分别有70篇、150篇和116篇被专利引用的高被引论文。其中,基因编辑与治疗分析热点主题篇均被专利引用频次高达25.7次,是所有主题中最高的。
病毒治疗。病毒治疗的迫切性和重要性在近年的新冠病毒大流行中显得尤为明显。本文遴选了新冠病毒、寨卡病毒与登革热病毒2个热点主题。其中,新冠病毒主题的论文数量是所有主题中最多的,共有584篇论文,新冠病毒主题篇均被专利引用频次为8次,主要研究内容包括新冠病毒的机理研究、检测方法研究、治疗方法研究与药物研究。中国在新冠病毒诊断与治疗热点主题表现比较亮眼,被专利引用的高被引论文数为129篇,篇均被论文和专利引用频次均高于世界均值,而美国的篇均被论文引用次数低于世界均值。该主题中,中国有4篇论文有企业参与研究,美国则有30篇企业参与;中国在其他7个生命科学主题中,通信作者论文数均为个位数,数量较少。
恶性肿瘤治疗。恶性肿瘤是全球人群发病和死亡的主要原因,近年来,肿瘤免疫治疗取得巨大突破,多种类型治疗药物与疗法相继涌现。本文遴选了肿瘤靶向治疗、恶性血液系统疾病的化疗与免疫治疗3个热点主题,分别包含论文67篇、69篇和143篇。以上3个主题篇均被专利引用频次也相对较高,分别为13.2次、18.3次和10次。
物质科学
物质科学领域遴选出7个热点主题。量子计算。该主题中包含67篇研究论文,主要研究内容为超导量子计算、量子模拟、量子存储器、量子算法等。超表面与超材料。该主题中包含121篇研究论文,主要包括超表面透镜、基于光子芯片的频率梳、介电超材料等研究内容。二维范德华材料。该主题中包含56篇研究论文,主要包括范德华异质结构、“魔角”石墨烯、范德华磁性材料等研究内容。锂电池。该主题中包含81篇研究论文,主题内研究内容包括固态锂电池、锂电池电解液制备、锂电池稳定性等。钙钛矿电池。该主题中包含105篇研究论文,研究内容包括钙钛矿材料结构、钙钛矿薄膜、电子传输材料、载流子寿命等。钙钛矿发光二极管。该主题中包含56篇研究论文,研究内容包括钙钛矿纳米晶体、钙钛矿发光二极管等。柔性材料与可穿戴设备。该主题中包含40篇论文,篇均被专利引用次数为6.8次,除生命科学领域以外,仅次于深度学习模型与应用主题;该主题研究内容主要包括电化学传感器、纳米粒子传感器、健康传感器、汗液传感器、聚二甲基硅氧烷(PDMS)薄膜材料等。
物质科学领域的7个热点主题包括凝聚态物理和光学、能源与材料2方面的研究(表5)。凝聚态物理和光学。在凝聚态物理和光学的3个热点主题中,中国通信作者论文在量子计算热点主题论文数量(1篇)明显不及美国(44篇),在超表面与超材料主题也不及美国的50%。在二维范德华材料热点主题中,中国通信作者论文与美国持平(19篇),美国通信作者论文的篇均被论文引用频次远高于中国。在量子计算、超表面与超材料2个主题中,美国通信作者论文被专利引用频次明显超过中国。然而,在二维范德华材料这个主题中,中国通信作者论文的被专利引用频次远高于美国,达到了10.6次,而美国的篇均被专利引用频次仅为2.3次。中国在二维材料的基础研究上有很强的实力,二维范德华材料是一种新型的二维材料,已在电子器件、能源存储、环境修复等领域显示出巨大的应用潜力,可能是中国未来材料基础研究转化实际技术和产品的一个重点方向。美国在量子计算热点主题中的企业参与研发比例很高,美国的44篇论文中有19篇为企业参与研发,如美国谷歌公司、美国高通公司、美国微软公司、美国英特尔公司这样的科技巨头占比较高。虽然中国在量子计算领域中发表了多篇高被引论文,但只有1篇被专利引用的论文。能源与材料。在能源与材料领域的4个热点主题中,中国在钙钛矿发光二极管热点主题的论文数量(26篇)远超美国(8篇),但在柔性材料与可穿戴设备和锂电池2个热点主题与美国存在较大差距,钙钛矿电池热点主题论文量与美国相当。从通信作者论文的论文与专利引用情况来看,无论是被论文引用还是被专利引用,中国的频次普遍低于美国。和世界引用均值相比,中国在锂电池主题的论文被引用频次高于世界均值,其他主题则低于世界均值,而美国在锂电池主题的专利引用频次上稍低于世界均值,但其余3个主题的被引频次均高于世界均值。在柔性材料与可穿戴设备热点主题中,美国的优势十分明显,论文数尤其是篇均被专利引用频次,远超过中国。美国论文中有3家生物科技公司参与其中5篇论文的研究;在锂电池热点主题中,中国的篇均被专利引用频次与美国的差距较大,该主题中,美国的3篇论文有德国、韩国在美的研发公司参与。
信息科学
信息科学领域遴选出深度学习模型与应用、人工智能医疗和区块链3个热点主题,中国在这3个主题中的篇均被引频次均低于世界均值,而美国则都高于世界均值。中国在深度学习模型与应用和区块链2个主题中的论文数量远超美国,但无论是论文引用还是专利引用,美国的影响力都显著超过中国(表6)。通过分析这些高被引论文的作者,发现在深度学习模型与应用热点主题中,美国的论文有更多的企业团队参与,包括美国谷歌公司、美国互联网公司Mate等多个互联网科技巨头,而中国相关论文基本都是大学与科研院所主导。
深度学习模型与应用。该主题包含185篇高被引论文,主要为深度学习模型与应用场景结合相关研究,包括自动驾驶、遥感测绘、图像处理、人类活动检测等。该热点主题论文被专利引用频次、篇均被专利引频次除生命科学领域外最高的,高达10.7次。
人工智能医疗。该主题包含126篇研究论文,该热点中论文多为深度学习在电子计算机断层扫描(CT)、核磁共振成像、X线检查等医疗成像技术上的应用,美国在人工智能医疗主题有较大的优势。
区块链。该主题包含56篇研究论文,分布于多个应用场景,包括物联网、电网、车联网、医疗保健数据等。中国在深度学习模型与应用主题、区块链主题的研究表现亮眼,分别发表了88篇和22篇相关论文,大幅超过美国的29篇和9篇。
结论与启示
结论
通过对影响技术创新的中美基础研究的比较,我们发现中国被专利引用的高被引论文数量增长迅速,但与美国相比仍有不小的差距。中国在部分与技术创新密切相关的研究领域甚至超越美国,这表明中国在支持技术创新发展方面具有一定的实力和潜力。通过总结中美两国在不同研究领域的表现、中国在这些领域的具体优势和不足,为决策者提供有关中国基础研究对技术创新贡献的细致解读与建议。
影响技术创新的基础研究主要集中在新生物技术与生物医疗技术、新兴信息技术、能源与材料这些可能引发颠覆性技术新的基础研究。新生物技术与生物医疗技术方面,被专利引用的高被引论文覆盖量最多,包括基因编辑、单细胞测序等有巨大引用前景的新生物技术,新冠病毒、寨卡病毒、HIV病毒等危害人类健康的病毒治疗,癌症治疗、糖尿病、阿尔兹海默这类社会疾病负担重的疾病治疗;能源与材料包括锂电池、钙钛矿电池、二维材料、柔性材料与可穿戴设备等;新兴信息技术包括人工智能医疗、量子计算、5G网络、区块链等。这些均是可能在未来可能引领产业革新、甚至引发颠覆性技术创新的基础研究。
中国影响技术创新的高被引论文增势显著,但与美国的差距依然较大。中国被专利引用的高被引论文增势明显,5年增长了超过60%,但数量仍不到美国的50%。相比于美国,中国具有优势的热点主题主要包括深度学习模型与应用、二维范德华材料、钙钛矿电池、钙钛矿发光二极管、新冠病毒诊断与治疗。美国有明显优势的热点主题包括人工智能医疗、区块链、量子计算、锂电池、柔性材料与可穿戴设备、生物信息与基因组分析、基因编辑与治疗、免疫检查点疗法及副作用、恶性血液系统疾病化疗与免疫治疗。
中国影响技术创新的高被引论文产生的影响力仍然低于美国。中国在不少与技术创新关联紧密的热点研究主题中的高被引论文数量高于美国,被论文引用频次也超过了美国,但被专利引用的高被引论文数量却通常低于美国。在论文与专利引用统计中,中国在新冠病毒诊断与治疗表现突出,无论论文或者专利的篇均被引频次高于世界均值,均高于美国。其他主题中,中国在二维范德华材料的篇均被专利引用频次与锂电池篇均被论文引用频次高于世界均值,美国在大部分热点主题的篇均被专利引用频次都高于世界均值。
美国企业在对技术创新有影响的基础研究中有较高的参与度。值得注意的一点是,美国被专利引用频次较高的热点主题的论文有大量企业参与,如深度学习模型与应用、锂电池、量子计算等主题中,多个美国互联网科技巨头在基础创新初期即深度参与,这一现象表明美国企业在技术创新的基础研究中具备强大的实力和参与度。美国企业在热门技术领域的早期投入和深度参与,为他们在相关领域取得重要专利和技术突破提供了优势。相比之下,中国被专利引用频次较高的高被引论文基本完全由高校和科研院所主导完成。
建议
基于上述创新科学结构图谱的分析结果,对我国基础研究发展提出以下3个方面建议:
加强现有优势领域的发展,政府和相关机构应持续投入,鼓励将已经对技术产生一定影响的基础研究尽快产业化和商业化,通过技术创新带动经济发展。
积极布局可能引起颠覆性技术创新的领域,加大对这些领域的研发投入,培养和吸引相应研究领域的顶尖人才,引导基础研究向技术成果的转移和转化。
根据美国企业在基础创新初期即深度参与研究的经验,中国可进一步通过税收优惠、研发补助和政策支持等措施激励有能力的企业参与到有可能引起颠覆性技术创新基础研究中。提供更多的风险投资支持,降低投资风险,吸引更多的私人资本进入科技创新领域。鼓励风险投资和私人资本向基础研究和高新技术企业投资,尤其是在早期研发阶段,从而更好的推动创新成果的快速推广和应用。
(作者:陈挺、冷伏海、李国鹏、王小梅,中国科学院科技战略咨询研究院;编审:刘一霖;《中国科学院院刊》供稿)