科学大数据管理技术与系统

发布时间:2018-09-07 11:51:11  |  来源:中国网·中国发展门户网  |  作者:黎建辉 李跃鹏 王华进 陈明奇  |  责任编辑:赵斌宇
关键词:科学大数据,融合查询,流水线,数据共享,弹性伸缩

 

 

 

 

计算和存储管理组件。即计算和存储资源随上层应用负载规模的变化而弹性伸缩,从而达到处理时间与资源投入的比例最优化。目前,弹性伸缩分为渐进式和定量式两种方案。渐进式伸缩方法监控上层应用对底层计算和存储资源的竞争度,动态地增加或缩减底层资源。例如,在 AWS 云平台的 E-MapReduce 集群上运行的 MapReduce 作业对资源的竞争度是集群剩余可用内存的数量,竞争度超过阈值会将新计算或存储节点纳入集群从而完成集群的自动扩容。定量式伸缩方法是通过预估目标应用的计算和存储资源需求,提前确定应用的计算和存储资源规模。与渐进式伸缩相比,定量式伸缩的反应时间较短,然而定量式伸缩方法高度依赖对目标应用的计算和对存储资源需求的准确预估,如通过建立目标应用的负载模型预估系统的计算和存储资源。

数据流水线管理组件。通过对数据处理流程的抽象,将数据处理过程映射为流水线中的若干逻辑处理单元,从而对数据处理过程进行规范和统一管理。通常情况下,流水线中 1 个处理单元代表 1 个函数、WebService 或 SQL 语句等,处理单元的输出可以作为其他 1 个或多个处理单元的输入;通过分支、循环等方式,这些处理单元组装在一起统一管理完成科学发现的流程。流水线管理与工作流、指令流等有相似的形式化表示,如 Pi 代数、Petri 网等,通过这些流水线形式化表示,系统可在理论上保证执行过程的准确性并对异常进行捕获处理。在实际应用中,除了保证流水线的正确运行之外,流水线管理还需要解决数据接入、数据溯源、中间数据转换等核心问题,常见的流水线管理工具有 Apache Nifi、Stream Set 等。

数据融合查询管理组件。即用统一的方式访问分析多源异构数据。目前数据融合主要有联邦数据库(Federate Database)、多模型数据库(Multi-model Database)、多存储数据库(Polystore Database)、数据集成(Data Integration)4 种方式。联邦数据库将多个自治的异构或同构数据库中的数据透明地映射到一个全局视图中,具有自治、异源或异构、分布式的明显特征,比如在 SQL Server 2000 和 Mysql 5.0 中的 Federate 功能。多模型数据库是指一个数据库后端存储多种类型的数据,如 OrientDB、ArangoDB 等。多存储数据库架构没有统一全局视图,而是由局部视图和中间视图构成,通过统一的查询语言进行查询,典型的 Polystore 架构有 BigDAWG、Myria 等。根据数据转换的方式,数据集成可以分为在线集成和离线集成两种方式。离线集成将不同数据源中数据通过 ETL 转换,存储在全局视图数据源中进行统一管理分析,如数据仓库、数据湖泊、DataHub 等方式。在线集成通过解析查询语句将局部视图中的数据在线转换为全局视图,如 Sparksql、Impala、Presto 等。

数据共享管理组件。该组件的根本任务是疏通数据拥有者到用户之间的链路,促进数据资源在拥有者和用户之间的流通、传播与重用。目前科学数据共享机制模式的研究主要集中在数据汇交机制、数据出版机制、数据联盟机制和服务激励机制(积分机制、在线计算服务模式)4 个方面,如王晴、李成赞等从政策法规、技术保障、评价激励等方面对数据共享机制进行了深入分析和论证。数据共享的隐私保护技术中最具代表性的是区块链技术,如丁伟等、翁健等提出了基于区块链的数据共享方法,通过公私钥等非对称加密算法将数据存储在区块链上,从而更大程度上保护了用户数据的隐私,并在医疗、基因等领域进行了验证。

<  1  2  3  4  5  6  7  >  


返回顶部