A-A+

超级计算机之争,中国力压美国

2016年07月18日 业界资讯 暂无评论 阅读 3,516 次
科技2016年6月21日

Zhao Zilong/Imaginechina, via Associated Press

2013年,占据500强名单榜首的是长沙国防科学技术大学的“天河二号”。

旧金山——全球最快超级计算机的最新排名榜提供了进一步的证据,表明美国和中国之间曾经悬殊的技术差距正在缩小。

“全球最快超级计算机500强”(Top500)每两年更新一次,最新榜单于本周一发布。中国不仅连续第七次成为世界上最快计算机的拥有者,而且打入500强的数量也是最多的——这是第一次有美国以外的国家做到这一点。

而且这也是第一次,全球最快的超级计算机使用了中国制造的微处理器芯片,而不是来自硅谷英特尔(Intel)的芯片。

在科学界,超级计算机被视为一个国家技术领先地位的指标,从新型武器和药品研发,到汽车和消费类产品的设计,超级计算机都发挥着非常重要的作用。多年来,美国计算专家和企业高管们都警告说,在超级计算机领域的领军地位对国家的很多利益至关重要。

“今天,甚至连民用洗涤剂的瓶子都是用超级计算机设计的,”芝加哥大学物理学家、教务长埃里克·D·艾萨克斯(Eric D. Isaacs)说。“中国越来越善于建造这些计算机,现在对美国的产业和国家安全来说,这成了一个竞争力的问题。”

美国在500强名单上失去领头羊地位的原因有很多。政府在联邦层面的基础科学研究投入长期存在争论,而且一些人反对政府资助那些与国家安全没有直接关系的产业创新,所以政府对超级计算的支持已经有所放缓。

By The New York Times

在私营部门,像谷歌、微软、Facebook和亚马逊这样的公司投入了数以十亿计的美元在云计算中心上,而解决科学问题并不是云服务的侧重点。

去年,美国封锁了一些先进微处理器对中国的出口,担心中国利用它们发展核武器,田纳西大学(University of Tennessee)的计算机科学家杰克·唐加拉(Jack Dongarra)说,这些处理器极有可能用来加快中国的自主技术研发。他曾在1993年参与创建最初的全球最快计算机榜单。

这个500强榜单是由唐加拉和劳伦斯伯克利国家实验室(Lawrence Berkeley National Laboratory)的物理学家埃里希·施特罗迈尔(Erich Strohmaier)共同维护的。各计算中心每两年向他们汇报一次情况和性能。

2001年时,500强名单中没有任何超级计算机来自中国。而现在,名单上有167座超级计算机来自中国,165座来自美国。而且中国在一个比较偏僻的类别中也处于领先地位——总处理能力,即一个国家所有上榜的超级计算机加总后的速度。

最快的计算机名为“神威·太湖之光”,是今年在江苏省无锡的国家超级计算中心安装的。

尽管取得了这些成就,但上榜计算机中91%的芯片仍来自英特尔。中国的顶尖技术,如软件和连接现代超级计算机中数以千计的芯片的网络,依然落后于美国。

Li Xiang/Xinhua, via Associated Press

全球最快计算机“神威·太湖之光”所使用的一个处理器。

但这种情况可能很快就会发生改变。行业组织半导体行业协会(Semiconductor Industry Association)称,中国政府制定了一个野心勃勃的计划,打算投入1500亿美元购买和开发各类芯片的新技术。

该协会的主席约翰·诺伊弗(John Neuffer)表示,多年忽视此事的美国似乎的确很重视这个竞争威胁。“这是我们在超级计算上加倍投入,重振旗鼓的机会,”他说。

去年,奥巴马政府启动了一个新项目,内容是开发所谓的“艾级”超级计算机。这种计算机的速度将是当今最快的超级计算机的十倍。(一艾次指一秒钟内执行一百亿亿条数学指令。)计算机专家称,这种计算机能够对气候变化带来的危险等关键问题给出更明确的答案。

在奥巴马总统去年7月签署国家战略计算计划(National Strategic Computing Initiative)之前,建造美国最快的超级计算机的工作主要由美国核武储备管理计划(Stockpile Stewardship and Management)推动。该计划1995年启动,旨在模拟核武器的测试和维护。

中国完善了IBM和克雷(Cray)等美国公司开创的传统超级计算机的生产,然而美国现在的侧重点可能是效率更高的新型超级计算机。据加州大学圣迭戈分校加州通信与信息技术研究所(California Institute for Telecommunications and Information Technology at the University of California, San Diego)所长拉里·斯马(Larry Smarr)介绍,这种超级计算机可能会催生专门应对人工智能等挑战的计算机。

最快的计算机面临的一个设计挑战在于它们巨大的功耗。中国那台全世界运行速度最快的超级计算机的体积相当于一个大仓库,用电量大致相当于1.5万户家庭。艾级超级计算机的用电量很有可能是它的两倍多,或者说相当于美国最大的太阳能发电设施铜山太阳能项目(Copper Mountain Solar Facility)的发电量。

与此同时,即便美国能在十年内设计出艾级计算机,中国可能会率先实现这个目标。据唐加拉称,中国政府致力于在这个十年结束前达到艾级计算。

因为资金不足和技术挑战,“美国制造艾级计算机的计划出现延误,因此,我们进一步落后于本应该达到的水平,”他说。

唐加拉称,无锡的超级计算机神威是中国制造实力的象征。该计算机的基础分布在40960个微处理器上的1060万个处理器“核”。这些芯片单独运行时速度相对较慢,大约相当于苹果iPhone 6的处理器速度。

神威也有自己的缺点。它的存储芯片技术较老,这意味着和最强大的美国超级计算机相比,它的各处理器数据交换速度有限。同时,中国的新型超级计算机仍建立在美国开发的光网络技术上。该技术被用于连接成千上万的微处理器芯片。

尽管中国上榜的超级计算机最多,但排名前二十的超级计算机仍以美国的为主,占了10台。欧洲现在有105台超计算机。名单上日本的超级计算机从11月的37台降至现在的29台。

几名美国科学家将目前的情况比作上世纪80年代。那时,他们担心在超级计算机领域,美国正在输给日本。

“科学家可能会说,‘我不得不去中国运行我的计算,”斯马说。

翻译:土土、陈亦亭

点击查看本文英文版。

揭秘太湖之光:纯国产如何称雄TOP500?)

附:超算界的角斗场:TOP500是什么?

1946年,由美国军方定制的电子计算机“ENIAC”面世,当时的这个“大家伙”每秒可执行5000次加法或400次乘法运算。经过了70年的发展,超算的运行速度已经达到亿亿次/秒级别。在今年6月的ISC 2016上,TOP500公布了新一届世界冠军:神威·太湖之光。有人不禁会问,这款超算究竟有何能力超过天河二号?国产处理器申威26010,又是怎样的秘密武器?


揭秘太湖之光:纯国产如何称雄TOP500?
神威·太湖之光

超算界的角斗场:TOP500

自1993年以来,国际TOP500组织每年都会按照Linpack测试性能公布全球已部署的前500台超算,每年会有两次排名,旨在促进超算领域的交流和合作,推广应用。由于在2002年之前,中国HPC(高性能计算)未曾向国际申报过Linpack结果,因此没有被列入TOP500。后来,随着相关机构陆续开放测试,中国开始在国际超算市场崭露头角,迅速成为前10名的常客。

Linpack最早在1974年4月被使用,是当前最流行的用于测试高性能计算机系统浮点性能的基准,通过超算求解N元一次稠密线性代数方程组的方式做出评估。Linpack测试包括Linpack100、Linpack1000和HPL。其中,HPL被称为高度并行计算基准测试,是针对现代并行计算机提出的测试方式,应用范围更广。

计算峰值是衡量计算机性能的一个重要指标,所谓的浮点计算峰值分为理论值和实测值,前者是计算机理论上每秒能完成浮点计算的最大次数,主要由CPU主频决定,后者是Linpack测试值,即在计算机上运行Linpack测试程序,通过一系列调校得到的最优测试结果。

在德国法兰克福举行的第47届国际超算大会上,一串带有中国特色的英文“TaiHuLight”成了全场焦点,它的官方名称是“神威·太湖之光”。这款超算以93Petaflops的Linpack峰值性能力压天河二号,领跑TOP500,与它一起出名的,还有国产处理器申威26010。值得一提的是,中国上榜的HPC数量(167台)也首次超过了美国(165台)。

揭秘太湖之光:纯国产如何称雄TOP500?
太湖之光登顶TOP500

除了排在前两位的太湖之光和天河二号,第四至十名的超算依次为泰坦、Sequoia红杉、日本K京、Mira、Trinity、Piz Daint、Hazel Hen和Shaheen II。根据官方的说法,中国是继美国、日本之后,全球第三个采用自主CPU建成千万亿级别超级计算机的国家。

作为曾经的TOP500六冠王,这里也有必要提一下天河二号,其由国防科大研发,落户在广州超算中心,搭载英特尔Xeon处理器,运行的是基于Linux的麒麟系统,创新性地采用了异构融合体系结构。天河二号的计算节点能耗约为18兆瓦,加上散热系统的整体能耗在20兆瓦以上。
太湖之光首秀夺冠 软硬件实现国产化

初识“太湖之光”

事实上,今年的ISC并非是神威家族的首秀,2011年曾经有一个神威蓝光系统,被安装在济南的国家超级计算中心,当时在TOP500上排名第14,所使用的申威SW1600是第三代16核芯片。上线五年之后,在863计划的支持下,中国国家并行计算机工程技术国家研究中心(NRCPC)推出了更强大的申威SW26010处理器,帮助太湖之光夺取了冠军。

太湖之光搭载申威26010众核处理器,运行速度超过10亿亿次/秒,峰值性能12.54亿亿次/秒,持续性能达到9.3亿亿次/秒,功耗比达到每瓦特60.51亿次运算。与天河二号相比,持续计算速度提升了近3倍,测试功耗却更低(15371KW,天河二号为17808KW)。在Linpack测试中,太湖之光用4个小时就完成了天河二号20多个小时才能完成的运算任务。


揭秘太湖之光:纯国产如何称雄TOP500?
申威26010处理器,主板为双节点(图片来自Jack Dongarra)

太湖之光的整机效率达到74.16%,相比之下泰坦为65.19%、天河二号为55.83%,这在性能愈强、规模愈大的情况下,是很不容易的。性能功耗比方面,太湖之光的成绩为6G/W,泰坦为2.143G/W,天河二号为1.95G/W。此外,太湖之光在Green500也跻身三甲,考虑到排在前两位的超算搭载的是低功耗英特尔E5,因此这一成绩值得肯定。

整体来看,太湖之光的架构应该是沿用了蓝光的MPP(大规模并行处理)分布式方案,更符合传统的HPC应用,效率更高。太湖之光由40个计算机柜组成,每个机柜有4个SuperNode(256个节点组成),共拥有40960个节点,每个节点单CPU有260个核心,主板为双节点设计,每个CPU固化的板载内存为32GB DDR3-2133。

揭秘太湖之光:纯国产如何称雄TOP500?
太湖之光机柜组成(图片来自Jack Dongarra)

揭秘太湖之光:纯国产如何称雄TOP500?
可嵌入四块双节点主板,正反各两块(图片来自Jack Dongarra)

揭秘太湖之光:纯国产如何称雄TOP500?
超级节点Supernode(图片来自Jack Dongarra)

此外,太湖之光运行的是基于Linux的Sunwei Raise OS 2.0.5操作系统,配有兼容众核的编译器,支持Fortran、C/C++、OpenACC 2.0等语言,以及神威OpenACC编译工具。互联方面,其选择了PCI-E 3.0物理链路,软件协议是自主的Sunway Network。在PCI-E嵌入的交换芯片会被当作虚拟网卡使用,这就使得各节点有了独立的IP。

揭秘太湖之光:纯国产如何称雄TOP500?
太湖之光软件堆栈(图片来自Jack Dongarra)

揭秘太湖之光:纯国产如何称雄TOP500?
太湖之光互联架构(图片来自Jack Dongarra)

揭秘太湖之光:纯国产如何称雄TOP500?
太湖之光整体布局(图片来自Jack Dongarra)

至于机房摆放,太湖之光采用了两侧各20个计算机柜和存储机柜、中间单列网络系统机柜的布局,占地面积605平方米。

申威26010扬名 摆脱国外技术依赖

国产申威26010的秘密武器

除了太湖之光夺冠,其实更令人兴奋的是其采用了国产处理器申威26010,可以说有着一定的历史意义。2015年4月,美国商务部发布公告,决定禁止英特尔向四家国家超级计算机中心出售Xeon Phi处理器。而在此之前,曾经的TOP500冠军天河二号采用的就是Xeon系列处理器。这意味着,天河二号将无法继续使用英特尔提供的用于升级系统的新款芯片。

然而,申威26010的出现击碎了外界对于国产化的质疑。与此同时,这款处理器也带来了一个“新名词”:众核。超算界早已对以GPU、众核为代表的异构计算持开明态度,GPU应用的场景越来越多,在算法上也有了更多的支持。从长远来看,异构集群对超算的重要性会加大,在确保灵活性和软件兼容性的前提下,追求更高的性能和更低的功耗。

一直以来,HPC的发展离不开军用和科研,太湖之光也不例外。事实上,申威在业内早有耳闻,但为什么外界鲜有人知呢?主要原因或许就是军方背景。申威系列芯片的研发单位是江南计算机所(即总参某部56所),而申威26010就是在国家高性能集成电路(上海)设计中心生产,被部署于无锡国家超级计算中心。总参某部56所创建于1951年6月,位于无锡。

申威最初的技术来源是DEC公司开发的Alpha 21164,后者在1995面世,采用0.5um制造工艺,主频为200MHz。不过,随着技术研发的深耕,江南所拓展出了自主的申威-64指令集,摆脱了Alpha的影子。

申威26010采用了“CPU+加速器”的方案(管理核心+运算核心),为64位RISC(主频1.45GHz),拥有260个处理核心和4个内存控制器。处理器内包括四个核心组,每组有65个内核,由8×8 Mesh架构计算集群(CPE)、一个管理单元(MPE)、一个内存控制器(MC)组成。其中,MPE和MC也可以被当作独立的处理核心,前者负责系统管理和通讯,后者则用于浮点运算,单个内存(128bit的DDR3)带宽为34GB/s,因此整个处理器提供了136.5GB/s的带宽。


揭秘太湖之光:纯国产如何称雄TOP500?
申威26010核心组结构(图片来自Jack Dongarra)

申威26010支持264位的矢量指令集,内置各32KB的L1指令缓存和数据缓存,以及256KB L2缓存,没有L3缓存。对于CPE来说,单条处理管线使得每个主频周期可进行8次浮点运算,浮点性能为11.6GFLOPS,而MPE则约为CPE的两倍。

揭秘太湖之光:纯国产如何称雄TOP500?
申威26010节点基础设计(图片来自Jack Dongarra)

此外,申威26010可能并非采用NUMA(非统一内存访问架构)架构,这使得处理器组内之间的内容共享成为可能,在硬件方面没有缓存的一致性需求,由软件负责同步。相比之下,英特尔Kight Landing则是将缓存一致性(Cache Coherence)都交给硬件。从性能来看,申威26010的双精浮点峰值为3.06TFlops,与Kight Landing处在同一水平线。

不过,作为完全自主的国产处理器,申威26010也面临着一些问题。首先就是制造工艺,有人猜测28nm,尽管并不是官方说法,但相较英特尔的14nm还是有些落后。其次,太湖之光的HPCG(High Performance Conjugate Gradients)成绩也一般,峰值效率为0.3%,低于天河二号的1.1%。

揭秘太湖之光:纯国产如何称雄TOP500?
太湖之光的HPCG成绩不理想(图片来自Jack Dongarra)

对于HPCG测试,可能是内存和互联宽带拖了后腿。前面提到过,申威26010采用的是DDR3,而英特尔Kight Landing已经用上六通道DDR4,Xeon Phi的内存带宽达到了512GB。虽然太湖之光在Linpack上大幅领先,但在HPC的适用性方面就会有些下降。总的来说,申威26010在计算能力上的优势有目共睹,不过由于更偏向军用,因此部分功能经过了特殊调校,应用范围有一定的局限。
第4页:太湖之光应用贡献大 照亮中国超算

超算之路不平坦 太湖之光只是开始

从天河系列的70%国产化,到神威蓝光的85%以上,再到如今完全自主、耗时三年研制的神威太湖之光,中国超算在美国芯片禁运的“倒逼”下,已经跨出了历史性的一步。值得一提的是,基于太湖之光系统的三项全机应用还入围了有超算界诺贝尔之称的“戈登贝尔奖”。该奖项自1987年设立以来,中国团队从未入围过。

在国家863计划的支持下,作为“国之重器”的超级计算机在工业制造、航天、军事、医学、科研等领域将发挥更大的作用,并且会助推深度学习、人工智能的发展。未来,太湖之光将在四个方向发挥作用:全球高分辨率模拟,为气候变化研究提供量化研究的基础;先进制造,助力“中国制造”转向“中国创造”;生命科学,为研发新药和探索生命奥秘提供支撑;大数据分析。

举例来说,国家超级计算无锡中心与清华大学、北京师范大学合作,在太湖之光上进行了CAM全球大气模式的重构与优化,以及全球超高分辨率大气模式实验框架。其中,大气模式实验框架已初步实现了3公里精度,仅次于日本NICAM 870米的分辨率。清华大学计算机科学与技术系副教授薛巍表示:“有了这套计算机系统,我们可以在30天内完成未来100年的地球气候模拟,全面提升我国应对极端气候事件和自然灾害时的减灾防灾能力。”


揭秘太湖之光:纯国产如何称雄TOP500?
大气模式实验框架(图片来自国家超级计算无锡中心)

借助太湖之光,国家计算流体力学实验室对“天宫一号”返回路径进行了数值模拟计算,将为其返回提供精确预测;上海药物所开展的药物筛选和疾病机理研究,两周内就完成了原本需要10个月的计算,加速了白血病、癌症、禽流感等疾病的药物设计进度;此外,太湖之光还将在“高分辨率海浪数值模拟”和“钛合金微结构演化相场模拟”方面做出巨大贡献。截至目前,国家超级计算无锡中心已经与北京大学、中科院软件所、中船重工702所、远景能源、清华大学、国家计算流体力学实验室等国内30多家机构或单位建立了应用合作关系。

除了国家级研究机构的贡献,以联想、曙光等为代表的中国企业也在超算领域有着很好的表现。最新一期TOP500中,联想就以92套获得了全球超算份额第二、中国第一的成绩。未来,超算将朝着高性能、低功耗的方向继续拓展,芯片设计、任务分配、算法优化、应用范围、散热系统等依然是努力的重点。

当然,在欢喜的同时,中国超算的配套硬件和实际应用仍有较大的提升空间,太湖之光的成绩固然亮眼,但应用数量还不能与天河二号相比。软件方面,太湖之光解决特定领域的问题可以,毕竟都是专为申威处理器优化过的,但要涉及商业或其他领域,就必须考虑兼容性。目前,国内超算研发经费中用于开发应用软件的占比不到10%,而美国则在30%以上。如果不能融入商业用途,其实也是一种资源浪费。

自1983年的“银河一号”诞生以来,中国超算从一片空白,到自主研发领跑全球,其中的巨大进步值得赞誉,这是成为科技强国的必经之路。而一路走来,质疑之声也从未间断,但无论怎样,每一项技术创新都会有学习的过程,不怕起步晚、走弯路、困难多,有了完全自主的技术支持,太湖之“光”将让中国超算更加闪耀。

(注:本文部分技术内容来自知乎网友Sean、yuan zhao、瞭望智库,以及美国田纳西大学橡树岭国家实验室Jack Dongarra博士发表的英文学术报告,Tech Report UT-EECS-16-742)

第5页:附:更多关于太湖之光及TOP500信息

附表:(内容来自Jack Dongarra的报告)

神威太湖之光系统参数:


揭秘太湖之光:纯国产如何称雄TOP500?

太湖之光、天河二号、泰坦对比:

揭秘太湖之光:纯国产如何称雄TOP500?

六款超算对比:

揭秘太湖之光:纯国产如何称雄TOP500?

太湖之光与英特尔KNC、KNL对比:

揭秘太湖之光:纯国产如何称雄TOP500?

最新一期TOP 500前10位的超算:

揭秘太湖之光:纯国产如何称雄TOP500?

给我留言

Copyright © 浩然东方 保留所有权利.   Theme  Ality 07032740

用户登录