科研院所数字化体系框架研究与实践
中国网/中国发展门户网讯 在数字经济的大背景下,数字政府通过数字化治理来激活数据要素潜能,以数字化转型整体驱动生产、生活和治理方式的变革。全球范围内,数字政府的建设整体水平稳步提升。《“十四五”国家信息化规划》制定了加强数字社会、数字政府建设,提升公共服务、社会治理等数字化水平一系列发展目标。随着数字经济的快速发展,数据和知识已成为其关键生产要素。数字化科研是数字经济的重要组成部分,与数字政府一样,都是新型信息技术支撑下的数字化应用场景。尽管数字化科研与数字政府在建设逻辑上存在差异,但它们所依赖的支撑技术基本一致,亦可相互借鉴,均主要涉及新型数字技术下,面向服务对象的数据感知、治理和融合创新分析应用。
本文引入“数字研究所”这一新概念,该概念借鉴了“数字政府”的概念,指的是科研院所科技活动管理过程中数字化转型形成的数字化体系。数字研究所是基于管理信息系统,并结合数字孪生、大数据、人工智能等信息技术,全面感知研究所科技活动管理模式,推动科研院所数字化转型,实现物理世界和虚拟世界结合的“数字孪生”体系。数字研究所是科研院所现代化治理数字化转型的新阶段,对于加快科技前沿布局及人才培养、推动科研领域走向国际前沿等,发挥着至关重要的作用。
与数字政府的建设不同,数字研究所的核心是通过数字化驱动科技管理创新,助力科研发现与科研创新。数字研究所主要服务于科研人员,目标是实现科研活动管理过程中的数字化感知和服务管理。相较于数字政府中的政务管理,数字研究所则紧密围绕科技活动管理开展。数字研究所针对管理流程快速重构、管理行为语义化表达、复杂异构数据治理等问题形成关键技术和解决方案,也可为数字政府的技术升级提供典型技术示范,促进数字政府的技术进步。
科技活动管理的特征表示与数字研究所的典型业务场景
数字经济时代如何利用数字化能力驱动科研创新是数字研究所的核心价值。数字研究所作为物理世界研究所的数字孪生体,面向科技活动管理领域,在构建时需契合科技活动管理的特征,具有典型的应用场景。
数字研究所是物理世界研究所的数字孪生体
数字研究所是对科研院所运行管理的在线表示,可理解为是一种数字孪生体。数字孪生是充分利用物理模型、传感装置等产生的数据及运行历史数据,集成多学科、多物理量、多尺度、多概率的仿真过程。本质上,管理信息系统也可表达为科研管理的传感装置,感知研究所管理过程,但管理本身具备不确定性,且管理行为难以直接数字化和精准刻画。数字研究所通过对管理规范、管理制度等文本内容进行数字化,将管理行为表示为系统运行流程,通过对流程和数据的感知,实现数字研究所与物理世界研究所的相互表示(图1)。
“数字孪生”的数字研究所直观意义上是物理世界线下管理形态的数据动态模拟,通过对科技活动过程的感知,利用仿真验证机制,构建增强学习模型、神经网络模型,形成物理世界中的数字映射系统。然而管理行为是不断变化的,利用数据动态模拟线下管理形态,通过线上的数据处理加工能力,对科研管理过程进行数字化建模,分析研究所科研管理过程中的缺陷及不同学科领域的科研管理特征,从数据中发现问题、解决问题,探寻数据驱动的科研管理效能提升方法论,将数字孪生体的决策分析结果反馈至物理世界研究所的管理过程中。“数字孪生”的数字研究所注重交互和反馈,既能实现对物理世界科技活动管理行为的模拟和可视化表示,又能通过数字世界的不断迭代演化改进物理世界的科技活动管理行为,从而实现良性反馈机制,发挥数字化效能。
以科研项目管理为例(图2),科研项目管理在现行政策制度规定及项目指南范围内,通过项目立项、执行、结题等环节,实现科研项目在物理世界的管理。通过数据采集、参数获取、管理感知,以及软件代码自动生成和流程自适配调整,满足管理行为演化的系统自适配,完成科研项目管理过程在数字世界的映射。构建神经网络模型、科研管理决策支持模型,获取科研态势、科学研究热点、国际前沿领域等分析结果,反向促进科研项目在物理世界的管理。
科技活动管理的特征表示
科技活动管理呈现出数据密集和数据驱动的特征,且科技活动之间存在复杂数据关联特征。随着海量科技活动管理数据的积累、全面细粒度数据的生成,科技活动管理业务呈现出数据密集和数据驱动的特征。科技成果往往表现为多维科技活动数据及其错综复杂的相互作用产生的新数据,例如关键人才与成果产出之间的关联关系、科研项目与成果产出之间的关系等。关联关系大多是隐性的,决策者希望通过隐性关系挖掘找出特征规律,以获得人才与产出、未来科研发展态势等关联,可视化分析研究领域间关系,判断当前学科研究热点及进展态势。
科技活动管理的不确定性规则和灵活性操作特征。数字研究所面向一线科研人员和科研管理人员,线上科技活动管理具有不确定性、长周期、多变化等特征,且用户操作需具有足够的灵活度。如何有效地识别用户身份及行为,柔性适应管理变革,同时满足多样化业务场景的灵活性要求,这为数字研究所带来了新的挑战。
科技活动管理的非线性决策支撑特征。数字经济的快速发展使科技活动管理的决策支撑往非线性方向发展。这使得数字研究所需要通过感知隐藏于表象数据下的全领域、跨组织机构、高维特征的科技活动管理数据,实现多源数据的超融合分析和应用,形成由业务驱动向数据驱动演进的新管理范式。
数据驱动的典型业务场景应用
运用数据驱动管理创新理念,实现科技活动过程的缺陷发现及特点挖掘,可从微观层面和宏观层面展开典型应用。
微观层面。微观层面的数字化应用是提升科技管理效能最为直接的表现形式。如利用大模型内容生成机制,通过语义识别、规则生成及文本表示模型,从管理规范文本中识别关键业务流程元素和语义规则,实现业务流程可视化生成,有助于实现管理需求变革带来的快速业务流程重构。针对系统中已有流程,利用管理业务流程文本生成方法,生成不同业务场景下的管理规范文本,有助于诊断研究所管理缺陷。通过对日志记录的业务语义恢复、用户业务行为模式挖掘,构建用户科研管理画像,实现异常行为检测与识别。通过对大量业务流程的审批时间分析,可以找出流程卡点,有助于改善流程节点和流程路径。通过推荐模型学习分析,可以挖掘当前流程节点的潜在审批人,提示用户选择。通过构建跨学科融合的科研管理知识图谱,可以有效促进科研项目管理领域的知识发现。通过基于深度学习算法模型的科研经济活动风险预测,有助于科研院所内控的数字化建设。这些微观层面的挖掘应用是推动数据驱动管理创新的基本要素。
宏观层面。对于数字研究所最具价值的是管理决策模式的新发现,即将模糊的、不确定的、全局的跨域科研管理数据进行融合,通过不断改进的人工智能算法模型逼近获得新发现。如研究所发展态势、研究所人才竞争力、科技活动资源精准分析、科研成果转化能力等,这些分析应用既需要跨域多源科技管理数据的融合,又需要通过新算法模型挖掘并定义出决策范式。在实现过程中,需要采用未定义的规则和标准,甚至是动态变化的规则和标准去衡量和评价。
数字研究所体系框架
数字研究所体系框架包含软件定义管理体系和管理数字孪生体系(图3)。从计算机应用角度出发,管理可表达为规则和决策。软件定义管理体系本质上是管理规则与设计实现的一致性表达问题,通过自然语言处理技术理解管理行为,表示为确定性管理规则,利用编译原理自动化生成数据和流程,构建快速适应业务需求、可随需重构的管理信息系统流程。管理数字孪生体系是在管理决策的逻辑下,搭建管理大数据系统,对科研管理数据进行凝练、融合和知识化,以发现管理缺陷和管理特征,为智慧化管理决策提供数据依据。
软件定义管理体系通过数据感知生成管理数字孪生体系所需的原始数据。管理数字孪生体系为软件定义管理体系提供多方位的管理缺陷和管理特征信息,交互反馈提升软件定义管理体系的智慧化效能。二者通过生成、反馈模式双向循环,不断促进。
软件定义管理体系
管理规则是一种可量化的计算机表达,进一步可表示为流程和视图、模型、控制(MVC)的组合体。管理行为可视为数据和数据衍生体的生成及流程表示。管理行为在管理规则的基础上,不断组合和衍生,形成已知管理行为的表示。针对未知形态的管理行为,则可利用管理数字孪生体系中大数据系统的分析计算能力,分析历史数据经验,形成可动态调整的流程模式,发现并定义形成新规则。软件定义管理体系将各类需求文本、管理规范制度或者制度改革需求,自动翻译成软件代码,通过流程定义最终实现管理行为的实际执行,具体表现为管理信息系统。
管理业务表示。管理信息系统核心是通过各类管理数据的感知、处理和分析,在完成业务功能和服务应用的同时,实现数据驱动管理业务。参考新一代中国科学院资源规划系统(Academia Resource Planning,ARP)管理业务形态,一般管理信息系统应用包括人力资源、科研项目、科研条件、科研经济活动、国际合作、知识产权、后勤管理、办公应用等。
软件定义表示。在管理信息系统构建方面,通过分层解耦机制,将技术能力与业务能力分离,按照基础设施层、技术中台、业务中台和业务应用4个层次自下而上构建。其中,基础设施层主要为管理信息系统提供弹性业务处理能力,保障系统高可用性和可扩展性。技术中台基于组件化思想,将技术功能分解成高度可重用、可定制且支持热部署的插件形态。业务中台则是将核心业务功能微服务化,以“小程序”应用模式组合形成复杂应用,实现管理业务的轻量化和可扩展性。业务应用则是面向科研院所实际需求,快速搭建形成的新型管理业务服务。
管理数字孪生体系
管理数字孪生体系围绕管理大数据系统,定义面向管理决策分析的分布式业务算法模型和计算框架,提供一键式、可视化的管理决策辅助机制;围绕科研管理大数据的预处理、计算、分析提供数据计算组件,支持基础数据分析算法和模型;具备可应对复杂多变应用场景的计算分析能力,面向决策部门和管理部门提供可便捷落地、信息安全可管控的管理数据分析计算服务。
管理大数据系统。融合管理信息系统产生的科技管理数据,扩展多源外部科研数据,构建支撑场景化应用的管理决策支持,实现分布式环境下的采集、治理、存储、查询、分析和质量管理,为用户推送分析结果,改进系统服务效能。管理大数据系统通常由1个数据底座、1个数据中台和N个数智应用构成。
数据底座。通过管理大数据治理体系和管理大数据资源汇聚体系实现多尺度复杂异构管理数据的感知和融合;通过多源异构管理数据清洗和关联机制,构建数据治理规范,形成高准确度的管理数据;通过多维高效数据存储和管理机制,满足管理大数据多维度分析的高效提取和数据组织需求;通过多尺度异构复杂科技活动数据汇聚技术实现内部和外部数据汇聚。
数据中台。面向业务应用提供数据分析与计算、数据可视化机制,以及可应对复杂多变应用场景的计算分析服务,具体包括业务场景驱动的数据智能决策模型、管理知识表示学习和生成可视化数据分析体系等,支持从数据上传到数据计算结果下载的全生命周期可视化计算。
数智应用。面向管理创新业务需求,基于跨数据源的多源数据融合分析。以数据为导向,为决策者提供科研经济活动、研究所科研发展态势等数据分析应用,例如数字研究所科研经济活动风险评估、基于数字孪生的科技活动知识图谱构建、基于数字孪生的科研用户行为画像和异常检测等,助力新时代数字化科研院所管理决策能力建设。
数字研究所关键技术
数字研究所需突破数据驱动的条件式事件型工作流、复杂跨域异构多维科技管理数据治理、全景化业务形态下的数据融合分析等关键技术,从而理解科研院所管理模式演变形态,探寻科技管理规律。
数据驱动的条件式事件型工作流。在数字研究所管理规则与设计实现的一致性表达问题中,最重要的环节是如何将基于数据驱动的流程转化成业务执行工作流。探索条件式数据驱动流程引擎关键技术,以便适应随需而变的业务快速构造,通过数据条件判断使节点间的流转动态化,利用语法分析器自动解释前端用户规则,实现流程映射和自动执行。
复杂跨域异构多维科技管理数据治理体系。通过多维度数据组织和关联,完善管理数据治理体系与数据资源共享机制;提供实时数据和历史数据并行计算框架,服务于态势感知,支持数据智能服务,实现管理应用辅助决策支持;提供一键式信息共享和场景化决策分析机制。
全景化业务形态下的数据融合分析。研究适用于多源海量时序管理数据分析的快速处理技术与方法、结合用户科研兴趣模型的知识感知和演化技术、细粒度资源表示下的弹性计算和资源预测模型、跨域科研管理数据融合的科研态势等,以适应灵活多变的全景化业务场景决策分析。
数字研究所体系框架应用
为全面提升中国科学院科技创新能力和国际竞争力,推动科研院所数字化转型,促进科研和管理变革,中国科学院“十四五”信息化规划部署了数字研究所应用示范项目,涉及科研与管理一体化平台、科技成果数据的数字化管理体系、数字园区建设、智能一网统管平台等18个课题。中国科学院所属科研院所在信息化建设过程中,面对多维交叉科研管理需求,构建了多类信息系统,但功能、流程、数据难以交互,且缺乏数据智能化管理,无法深入挖掘数据的深层次价值,导致数字化转型存在瓶颈,迫切需要顶层设计的统一规划和建设。
通过数字研究所应用示范项目,在数字研究所体系框架下,面向研究所全过程管理业务推进数字化转型。依托软件定义管理体系,实现管理规则的一致性表达,促进应用系统的深度集成,使用数据驱动的工作流引擎,快速适应科研管理需求变更,实现业务流程的随需重构。在管理数字孪生体系支撑下,实现多尺度复杂异构管理数据的感知和融合,利用分布式算法模型和计算框架,构建智慧化管理决策服务。例如,“数字长光所科研与管理一体化平台建设项目”支撑中国科学院长春光学精密机械与物理研究所科研与工程管理的数字化,通过应用、数据与流程的深度整合,实现创新活动管理的知识化和决策依据的科学化;“大连化物所数字化转型建设项目”在数字研究所框架体系基础上,进一步构建信息安全管理体系和快速满足科研需求的技术平台体系,实现横向协同和资源共享等。
数字研究所实施建议
数字研究所是科研院所现代化治理的“数字孪生”体系,按照数据驱动管理创新理念,实现研究所数字化管理,全面感知研究所发展态势。在实施数字研究所过程中,建议按照以下原则进行构建、完善优化和应用演进。
通过数据驱动的流程优化,探索业务管理的最佳路径。数字研究所在规范业务流程、统一管理要求方面已经达到目标,进一步考虑通过数据驱动的流程优化,使数据资源与业务本身建立联系,增强流程弹性,探索业务管理的最佳路径。
以促进科技创新为目标,实现管理大数据治理、数据业务化和语义化,支持科技活动管理精准分析和发展态势分析。研发科技管理数据汇聚工具,实现管理大数据治理,构建科技管理大数据治理体系,具备多尺度复杂异构管理数据感知和融合、多源异构管理数据清洗和关联机制、多维高效数据存储和管理等能力,以实现数据的业务化和语义化表达。
从为科技工作者服务的视角出发,充分发挥人工智能算法模型在科研管理决策的支撑作用。在通用人工智能算法模型的基础上,聚焦科技管理数据,结合通用管理模型、数据分析模型和数据分析技术,进一步构建业务场景驱动的数据智能决策模型、管理知识表示学习和生成,逐步构建模型库和算法库。在模型库构建的基础上,反向推进工具、数据、技术手段的完善,实现管理大数据分析的交叉融合迭代过程。
构建统一的数据安全监控体系,满足数据隐私保护、数据权限控制和数据安全防护要求。在数据安全法等前提下,通过构建统一的数据安全监控体系,支撑越权行为检测、异常用户行为发现和预警、关键数据加密、安全态势感知等,做到系统访问行为可追溯。
以“数字孪生”模式促进数字研究所不断演进,助力科技工作者随时随地获取权限范围内的科研信息化服务,推动科技活动创新。使用数字副本,针对管理业务场景的规则化、数字化和知识化,形成科研管理知识图谱,解释虚拟数字世界的管理过程与现实管理过程或制度规范的差异性,推动科技活动创新。
考虑以ChatGPT为代表的大模型技术可能对数字研究所发展产生的变革性作用和影响。生成算法、预训练模式、多模态等人工智能(AI)技术累积融合,催生了人工智能生成内容(AIGC)的大爆发。AIGC产业生态加速形成和发展,可以支持数字研究所更加科学地整合与分析数据,提升数据治理效率和数据决策效果,为数字研究所发展带来突破性创新。但同时也可能存在一些挑战,例如数据安全隐患、对技术工具的过度依赖等,甚至可能会引发科研院所的深层次改革,对科研院所的组织结构、业务流程带来巨大影响。
(作者:于建军、汪孔敏、施卓敏,中国科学院计算机网络信息中心;王月,中国科学院计算机网络信息中心中国科学院大学;编审:杨柳春;《中国科学院院刊》供稿)