中国高通量计算机的自主研发之路

发布时间：2019-07-12 10:15:59 | 来源：中国网·中国发展门户网 | 作者：范东睿叶笑春包云岗孙凝晖 | 责任编辑：赵斌宇

什么是高通量计算机

高性能计算在传统的科学与工程计算类应用中的特点包括：任务单一，负载变化不频繁，单个任务计算量大，以及计算局部性好。而高通量计算在数据中心的应用则主要面向互联网、物联网等新兴场景，其特点是：任务多样，单个任务往往具有流式计算特征；计算量相对不大，但任务的并发数量及数据规模巨大；以及处理要求具有实时性。

传统高性能计算机的研制目标是提高速度，即缩短单个并行计算任务的运行时间；而数据中心类应用系统的目标是高通量，即提高单位时间内任务或数据处理的吞吐量。这种以“算得多”为性能指标的高性能计算机被称为高通量计算机。如果给高通量计算机一个定义，那么可以这么描述：高通量计算机是适用于互联网大数据等新兴应用负载特征的、在强时间约束下能够全局可控地处理高并发请求的新型高性能计算机。其核心特点是对并发性、实时性和确定性的保障。

高通量计算机和传统的高性能计算机在目标应用、计算特征和设计目标等方面都存在明确的区别（表 1）。然而，由于高性能计算由来已久，目前主流的通用计算机和高端计算系统的发展都深受其影响，这也使得当前数据中心主流的计算系统在针对网络服务这种高并发、强实时的高通量应用时表现出诸多不足。为了进一步理解高通量应用对计算机体系结构的需求，我们基于当前主流的高性能服务器（采用Intel Xeon CPU）对典型高通量应用进行了测试，并且发现了以下一些问题。

缓存资源浪费。CPU上的共享缓存（cache）缺失率很高，这说明高通量应用与传统高性能计算应用的数据访问特征有明显区别，传统的多级缓存设计并不适合。从面积和功耗的角度来衡量的话，共享缓存作用不大，但却占用了大量的片上面积（在 Intel 的主流服务器芯片中，片上存储所占面积通常高达 30％以上），产生了大量的功耗。

内存带宽利用率低。CPU 在 70％以上使用率时的压力测试下，内存带宽的有效使用率通常也不到 10％。这说明，在高通量应用负载下，传统计算机体系结构设计下的内存带宽并没有得到有效利用。

服务质量难以保障。当增加任务的并发负载，使得 CPU 利用率维持在较高水平时，我们发现应用的完成时间迅速拉长，也即系统的尾延迟明显增大，从而导致延迟敏感应用大量失效。因此，在传统服务器系统上，要想获得好的用户体验，必须把硬件利用率维持在较低水平。

通过上述实验结果我们可以看到，现有的高性能计算机系统的设计并不能很好地满足高通量应用的新特性。因此，需要开展新型的高通量计算体系结构的研究。

< 1 2 3 4 5 6 7 8 9 10 >

中国高通量计算机的自主研发之路

相关文章