|
新型应用发展趋势
新型行业应用的计算行为基本特征就是数据密集。大数据涌现在高性能计算应用广度和深度的进一步拓展方面、高性能计算系统发展方面、高性能算法和软件研发方面,带来一些新的趋势。
高性能计算应用广度和深度进一步拓展
大数据应用层出不穷。在物联网技术、5G技术及各种数据采集技术快速发展的背景下,以大数据为基本特征的各类应用层出不穷,从智慧城市、生命健康到粒子物理、天体物理,大数据应用广度和深度不断拓展。
传统问题的人工智能求解带来新机遇。人工智能产生应用的基本条件,大数据和计算力已经发展到新阶段,人工智能对传统问题,生命健康、基础物理乃至气象气候预报、石油勘探等众多领域,产生积极推动作用。2018 年 Gordon Bell 奖之一,就是利用深度学习方法,分析气候变化模式。
多领域问题协同分析陆续出现。大数据的积累和计算力的大幅度提升,也为复杂系统或多领域问题协同分析创造了可能,如环境与生态的模拟问题、物理化学和生命的多尺度分析、精准医疗等。
高性能计算系统研发面临新的发展机遇
专用加速硬件兴起。从传统的图形处理器(GPU)到张量处理器(TPU)、深度计算器(DCU)等专用硬件的流行,高性能计算加速芯片不断涌现。其中 TPU是近年来 Google 提出的专用于深度学习加速的张量处理单元,其提供低精度高通量的计算。相比 GPU,TPU 拥有更高的 I/O(输入/输出)效率和更低的能耗。
大数据处理对超级计算机网络提出新要求。典型的大数据处理问题,数据 I/O 等从存储到计算的频繁程度和带宽需求大幅度上升,而计算进程之间通信更多以小消息为主,约占消息总数的 95%。因此,大数据处理对存储网络和计算网络的性能需求,产生显著分离。
大数据处理平台的非功能需求特点。新的业务对应用提出了众多非功能性的需求,如要求应用具备快速开发、可扩展、易重用、有统一接口、有完整的生态供下游业务进行作业,以及自动容错等。
高性能算法与软件设计面临新的挑战
大数据矩阵的稀疏性特点。大多数大数据处理问题,最终转化成矩阵计算,这些矩阵通常具有稀疏性(零元数据个数远远大于非零元数据个数),但一般不具备偏微分方程求解问题中稀疏矩阵非零元对角分布特性。另外,传统的稀疏矩阵求解通常要求精确解,但随着新应用的出现,人们对于稀疏矩阵的求解精度要求,往往让位于求解速度的要求。例如,在商品推荐、搜索引擎和社交网络等大规模推理任务中,用户往往只需要在 Top k(Rank k)的结果中出现想要的结果,即认为求解符合预期。而在求解性能方面,可能要求计算复杂度 O(k)(k<<n)的算法。
大数据时空性特点。新兴智慧城市等应用中,时空特性越来越受到人们的关注。例如:交通流量预测中,GPS 前后有很强的时序关系;自然语言处理(NLP)中,上下文前后词语之间也呈现出明显的时空特性。
大数据高维度特点。数据的维度通常随着业务问题规模的增大而指数级增大。为了约减数据集的维度,研究人员通常采用特征抽取、去不相关、去低方差和去常量属性等技术。数据体量大增加了数据维度约减的难度。
异构大数据融合特点。大数据往往是异构的,数据的属性是不一致的。面临体量大、种类多和数据持续产生等特点。如何有效地融合多个异质数据集并挖掘出其中有用的信息,是高性能计算需要解决的问题。
大规模图处理特点。基于图来发现事物之间的关联性是大数据领域的典型问题。大规模图处理往往面临数据局部性差、数据剖分困难、通信开销大等挑战,而实际应用对于算法实时性又往往存在较高要求。随着数据体量的增大,如何进一步减少数据的处理时间,是高性能计算面临的新挑战。