中国高通量计算机的自主研发之路

发布时间:2019-07-12 10:15:59  |  来源:中国网·中国发展门户网  |  作者:范东睿 叶笑春 包云岗 孙凝晖  |  责任编辑:赵斌宇
关键词:高性能计算,高通量计算,数据中心,系统熵

高通量计算基础理论

与传统高性能计算以高速度为设计目标相比,高通量计算的核心是追求高通量,即算得多。具体包括 3 个核心要素,即高吞吐、高利用率、低延迟。

高吞吐。是指单位时间完成的任务数或者响应的请求数要多。对于互联网应用场景来说,数据中心的一个核心挑战是要实时响应海量的并发用户请求。以 2018 年天猫“双 11”全球狂欢节为例,其实时数据处理峰值超过 6 亿条/秒,支付成功峰值超过 30 万笔/秒,数据中心必须充分挖掘各种并行性以应对如此巨大的实时并发处理需求。

高利用率。是指计算机系统中的核心部件(如 CPU、存储器、网络等)的利用率要高。当前大型数据中心通常包括数十万台甚至百万台服务器,建设资金则高达数十亿甚至百亿美元。然而,为了确保用户的服务质量,现有数据中心不得不将利用率控制在较低水平,因此整体利用率情况很不理想。公开数据显示,2013 年谷歌数据中心的平均 CPU 利用率只有30%,而其他互联网公司运营的数据中心的利用率甚至比该值还要低。可见在现有的架构下,要做到既能实时满足用户处理需求,同时又能达到高的利用率,是非常困难的。

低延迟。指用户请求的响应时间要短。互联网上的大部分在线服务具有明显的实时交互特征,数据中心必须确保在给定的实时性约束条件满足的情况下返回结果,否则会导致服务的失效。比如一些图像识别或者语音翻译之类的人工智能(AI)应用场景,通常要求响应时间在毫秒级别,这对于当前的计算机系统来讲是一个巨大挑战。

针对上述高吞吐、高利用率、低延迟的设计需求,我们提出一个基于“系统熵”的通量分析模型 。系统熵主要受延迟的不确定性(波动情况)、资源利用率和吞吐量 3 个因素影响。简单来讲,系统熵与延迟的波动幅度成正比,与资源利用率以及系统吞吐量成反比。因此,延迟波动越大,系统熵越大;资源利用率越高、吞吐量越大,则系统熵越小。类似于“热力学熵”的用法,我们通过“系统熵”可以反映计算机系统中的易扰动程度或者不确定性。

“熵者,伤也。”高熵系统往往开销大、成本高。相比于高熵系统,低熵系统具有更优的可预测性,能达到更高的效率、更低的成本,也更受用户青睐。曾有人问美国能源部副部长斯蒂文 · 库宁(Steven Koonin),为什么电能如此受到人们的喜爱?他回答道,因为电力是一种低熵能源。前文提到,为了确保用户服务质量,现有的数据中心的 CPU 平均利用率很低,一旦利用率提高,其负载性能的波动幅度将迅速增大。因此,当前数据中心计算系统仍然是高熵系统。而高通量计算机的核心目标就是要降低系统熵,也即降低系统的不确定性;以及通过高通量计算机实现提高系统利用率和任务吞吐量的同时,避免应用的性能波动。

<  1  2  3  4  5  6  7  8  9  10  >  


返回顶部