曙光5000
曙光5000
曙光5000A高性能計算機是國家863計劃高性能計算機及其核心軟體重大專項支持的研究項目,是面向網格的高性能計算機,可以為網格提供計算服務,同時也是面向信息服務的超級伺服器。
系統計算節點機採用四路四核AMD Barcelona (主頻2.0GHz)處理器,每個節點64GB內存,胖節點機採用八路四核AMD Barcelona(主頻 2.0GHz)處理器,每個節點128GB內存,整個系統由1650個節點組成龐大機群,共有6000顆CPU與100T海量內存,其理論浮點峰值為每秒230萬億次,採用20GB,延遲小於1.3us的Infiniband高速網路進行互聯,採用了WCCS + SuSe Linux 雙操作系統。
曙光5000A已成功運行證券指數計算、電力安全評估、建築工程抗震性評估、天氣預報、石油地震資料處理、核能開發利用、汽車碰撞、電磁輻射、計算流體力學、基因匹配與拼接、蛋白質結構分析和材料科學等領域的20多項應用。面向國民經濟建設和社會發展的重大需求的網格超級伺服器,曙光5000A適用於各種大規模科學工程計算、商務計算。在大規模科學工程計算方面,可以擔綱電力電網安全評估、汽車碰撞、電磁輻射、石油勘探開發、氣象預報、核能與水電開發利用、各類航天器及飛機汽車艦船設計模擬、各類大型建築工程安全性評估、生物信息處理等重任,在大規模商務計算方面,它可以為證券、稅務、銀行、郵政、社會保險等行業和電子政務、電子商務等提供服務。在大規模信息服務方面,它可以在各類遊戲網站、門戶網站、信息中心、數據中心、流媒體中心、電信交換中心和大型企業信息中心中發揮作用。對基於海量存儲的數據大集中應用,完全兼容32位計算的具有64位地址空間的曙光5000A網格超級伺服器更可大顯身手。
曙光5000A可以在3分鐘內,可以同時完成4次36小時的中國周邊、北方大部、北京周邊、北京市的2008年奧運會需要的氣象預報計算,包括風向、風速、溫度、濕度等,精度1公里,即精確到每個奧運會場館。
曙光5000A可以在6分鐘內,可以同時完成20次上海黃浦江過江隧道三維結構的地震數值分析的計算,能夠精細評估隧道的抗震性能。
曙光5000A系統峰值運算速度達到每秒230萬億次浮點運算(230TFLOPS),LINPACK運算速度超過每秒160萬億次浮點運算,是目前國內速度最快的商用高性能計算機系統。曙光5000A使中國成為繼美國之後第二個能製造和應用超百萬億次商用高性能計算機的國家,也表明我國生產、應用、維護高性能計算機的能力達到世界先進水平。該系統在大規模機群計算和網格使能技術方面有所突破,形成了鮮明的技術特色,將我國通用高性能計算機系統的研製水平提升到一個新高度。
高效能超級計算機
超級計算機通常是指由數百數千甚至更多的處理器(機)組成的、能計算普通PC機和伺服器不能完成的大型複雜課題的計算機。為了幫助大家更好的理解超級計算機的運算速度我們把普通計算機的運算速度比做成人的走路速度,那麼超級計算機就達到了火箭的速度。在這樣的運算速度前提下,人們可以通過數值模擬來預測和解釋以前無法實驗的自然現象。
隨著超級計算機運算速度的迅猛發展,它也被越來越多的應用在工業、科研和學術等領域。我國現階段超級計算機擁有量為22台(中國內地19台,香港1台,台灣2台),居世界第5位,就擁有量和運算速度在世界上處於領先地位,但就超級計算機的應用領域來說我們和發達國家美國、德國等國家還有較大差距。如何利用超級計算機來為我們的工業、科研和學術等領域服務已經成為我們今後研究發展的一個重要課題。超級計算機是一個國家科研實力的體現,它對國家安全,經濟和社會發展具有舉足輕重的意義。我國超級計算機及其應用的發展為我國走科技強國之路提供了堅實的基礎和保證。
(1)突破230萬億次峰值運算能力
曙光5000A採用國際高性能計算機主流的機群結構,整個系統規模達到1650個節點,每個節點為4CPU的4核SMP系統,採用AMD Barcelona 2.0GHz處理器,峰值運算速度為230TFLOPS。整個系統通過兩套網路互連,包括Infiniband、千兆乙太網。系統的主要配置如下:
230T FLOPS峰值運算速度
6600個CPU
1650個結點
100TB內存
700TB存儲
兩套網際網路路
曙光Gridview機群軟體
(2)高密度
對於大規模高性能計算機系統而言,如何提高系統密度並降低功耗是研製人員面臨的關鍵問題之一。為提高曙光5000A的系統密度,中科院計算所聯合曙光公司,研製了具有自主知識產權的4CPU 4核高密度刀片主板和基於該主板的世界上第一款7U高度的10片4路4核64位CPU的工業標準刀片伺服器。該刀片伺服器可以實現單機箱40CPU,160核的超高計算密度,並實現了單節點內部的并行計算。
(3)全自主
中科院計算所聯合曙光公司自主設計了包括主板,體系結構,刀片伺服器,刀片機箱系統,網路交換系統,水冷散熱系統在內的全部系統。曙光5000A的設計也完全符合中國刀片伺服器標準。在自主創新的研製過程中,曙光在業界實現多個第一:
首次實現了4路16和的高密度刀片系統,
首次實現了單刀片機箱40克CPU的高密度機箱設計,
首次實現了基於DDR的Infiniband的交換結構,實現了20GB高速互聯和小於1.3us的低延遲。
首次採用了水冷散熱系統,降低了高性能計算機對機房系統的要求,降低了系統功耗。
(4)高效能
由於採用高密度伺服器,曙光5000A能大約75平方米的佔地面積內聚集230萬億次的計算能力,而其滿負載運行時不帶水冷系統功耗只有700千瓦,帶水冷系統的功耗僅為1000千瓦。這一方面提高了機群系統的可擴展性,另一方面降低了整個系統地運行成本。
(5)高速互聯
曙光5000A採用基於DDR的 Infiniband高速網路實現計算網路和存儲網路合一。實現了20GB的節點間傳輸速度,實現業界最快的小於1.3us延時。
(6)應用廣泛
曙光5000A不僅可以應用於高性能計算,還可以應用於信息服務,電子政務,網路遊戲等常見商業應用。
在高性能計算領域,曙光5000A可廣泛運行證券指數計算、電力安全評估、建築工程抗震性評估、天氣預報、石油地震資料處理、核能開發利用、汽車碰撞、電磁輻射、計算流體力學、基因匹配與拼接、蛋白質結構分析和材料科學等20多個應用領域。
在商業應用方面,由於曙光5000A使用Suse Linux 和 WCCS ,可廣泛運行目前Linux和Windows下的主流的行業軟體。
(7)節能
採用了低功耗的CPU,每年節電55萬度
採用了低功耗的內存,每年節電5萬度
採用了刀片結構,電源效率優化,每年節電100萬度
採用了水冷散熱體系,每年節電200萬度
採用了曙光自主研發的自適應功耗管理軟體,每年節電200萬度
(8)高效冷卻系統
曙光5000A首次採用了水冷系統,通過使用水冷系統,降低了高性能計算系統對客戶機房的要求,同時提高了冷卻效率。水冷系統的設計實現了水電分離,保證了系統的安全性。同時水冷系統還包括備份的被動散熱系統,可以在水冷失效的情況下保證系統的正常運行,提高了系統的穩定性。
(9)高性價比
通過選擇AMD Barcelona和自行研製的主板,曙光5000A的價格優勢更是十分顯著,是新型信息化思路的產物,能大幅降低高性能計算機的成本,使曙光5000A具有很好的性能價格比。
在曙光5000A的研製過程中,曙光公司延續了以往艱苦奮鬥的精神,使得曙光5000A具有極高的性能價格比。實現230萬億次的計算速度的曙光5000A總造價約2億元。
(10)自主創新的管理軟體
在大型機研製過程中,曙光不僅追求最快,同時也在系統管理方面最求完美。曙光5000A中,曙光自主開發了Grid View集群管理管理系統。曙光新一代Gridview大型機綜合管理系統提供統一的集中式監控平台,具備可擴展性、集成性、可靠性和易用性,提供對各種商用、自己研發的管理工具的集成介面,包括直接以Portal的方式集成和抽取各已有管理工具的監控數據以便上層平台能夠分析利用,從而滿足同時對分散式廣域區域網高效能百萬億次可擴展計算機的環境、硬體、軟體等各方面進行監控的需求。曙光Gridview大型機綜合管理系統具有高可靠性,具有一定容錯性和健壯性,使得當部署運行環境等發生異常時系統能夠運行在可控的範圍內,並進行準確的異常定位提示。系統具有易用性,提供簡單靈活的系統部署,人性化的界面和功能設計,方便最終用戶的使用,包括靈活方便的個性化設置、多樣的內容展現形式。管理系統同時提供個性化、自定義報表輸出功能。曙光新一代GridView可有效解決大型機管理的複雜性問題,保障了管理的擴展性、可靠性、自主性和貼近應用需求。
Grid View管理系統不僅適用於曙光5000大型群集系統,也是用於全系列的曙光伺服器。
通過曙光5000A項目,計算所、曙光公司與AMD公司進一步加強了戰略合作關係。採用AMD Barcelona處理器,使中國用戶能更早地、更廉價地、更容易地得到64位計算能力;同時引入充分競爭,為中國用戶帶來更多的技術選擇,更大的價格利益,並從國家利益的高度有利於改善中國計算機產業的格局。
通過曙光5000A項目,曙光公司與微軟公司建立了戰略合作關係。採用微軟的WCCS伺服器,提供了用戶的管理友好性,同時也讓曙光5000A可以運行Windows下的大量行業軟體。
1.高性能
1.1 上海超算的曙光5000的交付性能為200T,調試時230T
1.2 Linpack值150-160T,linpack效率70%以上
2.全自主
2.1 曙光自主設計了主板,體系結構,刀片伺服器,刀片機箱系統,網路交換系統,水冷散熱系統等,除了CPU及infiniband主晶元及操作系統外,曙光5000全部由曙光獨立自主設計
2.2 首次採用了4路16核的高密度刀片系統
2.3 首次採用了單機箱40顆CPU的高密度機箱設計
2.4 首次採用了DDR Infiniband 的交換結構
2.5 首次採用了水冷散熱系統
2.6 首次採用了基於DDR Infiniband的存儲系統
3. 高效能
3.1 單機櫃性能7.5萬億次
3.2 單機櫃耗電20KW
3.3 百萬億次計算僅需要約14個機櫃,佔地約15M2,
4.高密度
4.1 計算節點 16核SMP
4.2 胖節點 32核SMP
4.3 單核心可用內存128G
4.4 實現了7U10片的高密度刀片系統
4.5 實現了7U40個CPU的高密度刀片系統
4.6 實現了7U160核的高密度刀片系統
4.7 實現了單節點內的多路并行
5. 高速互聯
5.1 採用DDR Infiniband實現計算網路和存儲網路合一
5.2 DDR Infiniband實現業界最快的1.3us延時
5.3 使用Infiniband快速乙太網和千兆乙太網
6. 應用廣泛
6.1 應用廣泛,可廣泛運行證券指數計算、電力安全評估、建築工程抗震性評估、天氣預報、石油地震資料處理、核能開發利用、汽車碰撞、電磁輻射、計算流體力學、基因匹配與拼接、蛋白質結構分析和材料科學等領域的20多項應用。
6.2 使用Suse Linux 和 WCCS ,可運行目前主流的行業軟體
7.節能
7.1 採用了低功耗的CPU,每年節電55萬度
7.2 採用了低功耗的內存,每年節電5萬度
7.3 採用了刀片結構,電源效率優化,每年節電100萬度
7.4 採用了水冷散熱體系,每年節電200萬度
7.5 系統在230T的全功率運行時,總耗電,不含空調700W,含空調1MW
8. 高性價比
8. 1230萬億次,總造價約2億元。
9. 高效冷卻系統
9.1 水冷系統的採用,降低了客戶的機房空調要求
9.2 水冷系統的使用,具有較好的冷卻效率
9.3 水冷系統實現了水電分離,保證了系統的安全性
9.4 冷卻系統包括備份的被動散熱系統,可在水冷失效時保證系統正常運行
10. 自主創新的管理軟體
10.1 自主創新的Grid View管理系統
10.2 Grid View管理系統不僅適用於曙光5000大型群集系統,也是用於全系列的曙光伺服器
11. 符合標準的設計
11.1 伺服器符合伺服器刀片標準
曙光5000方案中的創新點很多,現簡要描述以下三點。
高效能超級計算機的主要用途有兩種,一種是以最快的計算速度解決某個領域的科學問題,如IBM的BlueGene主要適用於解決蛋白質摺疊計算;另一種是用於計算中心或數據中心的能力服務,即能有效地提供大量用戶需要的計算、存儲和I/O能力。迄今為止,全世界還沒有一種高效能超級計算機能較好地滿足這兩方面的要求。這是因為不同的應用需要不同的體系結構。
國外已有和正在研製的高效能超級計算機的體系結構的基本思路主要是大規模并行機(MPP)、機群(Cluster & Constellation)和分散式共享存儲(NUMA)三種,不管採用哪一種都有局限性。曙光5000準備採用的HPP體系結構是計算所、曙光公司和多位國外著名學者反覆研討后提出的一種標新立異的結構。HPP是具有全局地址空間和三級并行的分散式系統,即片內是可擴展通用多處理器核並具有寄存器傳輸級通信機制;通過三層高速互聯實現片內、節點內、系統三級并行;具有全局共享地址空間,通過節點內和節點間兩級互連構成分散式系統;支持多通道併發的核到核通信;節點操作系統具有單一系統映像,並保持節點獨立性;有效支持“多線程分割全局地址空間”編程模型。
通過實現以上獨創技術,可以得到以下前所未有的好處:
(2)曙光5000能有效地支持能力計算這一計算中心和大企業需要的新型計算模式,能根據用戶的需求動態地調度和優化利用計算機資源;
(3)曙光5000緩解了大規模可擴展和編程困難的矛盾,既增強了高效能計算機的可擴展性,又實現了全局共享地址空間,一定程度上克服了目前的分散式機群系統編程難的瓶頸,而且使目前商用機群上的大量應用軟體可以兼容運行;
(4)目前IBM BlueGene、Cray XT4、NEC ES等高端計算機技術下移至中低端系統時缺乏競爭力,而通過採用HPP體系結構,不但千萬億次計算機具有極高的性能價格比和性能功耗比,而且向下輻射做百萬億次甚至幾萬億次計算機時都有很強的競爭力,十分有利於產業化。以上這些創新點國際上千萬億次計算機研製中還沒有看到,如果這些設計都能得到有效實現,曙光5000很有可能在一些方面處於世界領先水平。
2、創新的設計主要體現在三款核心晶元上,曙光5000具有(百)千萬億次計算機的實實在在的自主知識產權。
從曙光一號到曙光4000,計算所和曙光公司在高效能超級計算機的研製過程中,曾設計、流片過Wormhole Routing等關鍵晶元,但基本上沒有量產。目前大量銷售的曙光高性能計算機的各種晶元幾乎都是進口的,CPU等晶元佔到高端計算機成本的80%以上。曙光5000與過去我們研製的高端計算機的重要區別是,(百)千萬億次計算機的三款核心晶元都將由計算所和曙光公司自己設計。
這三款核心晶元是:龍芯多核CPU,連接一塊板上多個CPU的系統控制器(System Controller),和連接各節點的交換晶元(Switch)。這三款核心晶元難度都很大。如果能按計劃如期完成,我們可以十分自信地宣布,中國已完全掌握了高效能超級計算機設計的核心技術。
在我們的研製計劃中,這些晶元不是仿製國外的晶元,必須要按照HPP體系結構的要求獨立設計,包含許多原始創新:例如:我們爭取在世界上首次實現CPU內多核之間的寄存器級(RTL)數據傳輸機制,使得CPU內通信速度有可能超過計算速度,從根本上消除通信瓶頸;系統控制器和交換晶元中內置可直接定址的Test & Set硬體鎖,可顯著提高進程間同步的效率,硬體“同步”也會大大提高并行應用同步的效率;利用全局地址空間實現“賦值”式通信,降低CPU中核與核之間的通信延遲;利用多層網路提高了多核與多核之間併發數據交換的聚合帶寬和吞吐率,打破通信壁壘等等。
必須指出,研製(百)千萬億次計算機在工程實現上難度很大,不同於一般的科研課題。曙光5000必須解決一系列世界性難題:如千萬億次計算機的全系統模擬器;高頻數字模擬混合、光電混合信號;多核心(Kernel)操作系統容忍單個處理器故障,能夠支持節點之間的隔離性;對消息傳遞機制和全局地址空間兩種并行計算模式同時提供有效支持;上千個客戶端在多用戶併發訪問模式下保持穩定的I/O性能;改造現有演演算法並利用并行編譯技術使應用與千萬億次計算機的體系結構相適應,以達到數萬個處理器的可擴展性等等。這些都是國際學術界和企業共同面對的難點。我國在工程技術上與國外還有較大的差距,掌握這些技術還需要我們付出艱苦的努力。
3、曙光5000創新技術還體現在低成本、低功耗和低佔地面積方面,曙光5000在單位性能的成本、功耗和佔地面積上的目標是瞄準世界領先水平。
龍芯多核CPU在可擴展多核結構、多指令集支持以及在低成本和低功耗的基礎上獲得高效能等方面有獨特的優勢。如果全部採用龍芯多核CPU,曙光5000在成本上將有極大的優勢。即使只採用一半龍芯多核CPU,另一半用國外CPU晶元(曙光5000的體系結構具有很大的靈活性,也可以支持其他主流CPU,不限於龍芯CPU),成本上也有較大優勢,比國外正在研製的千萬億次計算機成本要低得多。
曙光5000計劃分兩期進行,在2008年通過一台百萬億次曙光5000A系統、一台數萬億次原型機、一個模擬器分別驗證曙光5000在軟體、硬體、體系結構上的創新,在2010年推出千萬億次曙光5000L系統。
曙光5000在滿足國家千萬億次高效能計算機的戰略需求的同時,還要將關鍵技術輻射到企業伺服器、個人高效能計算機(萬億次)、箱式高效能計算機(十萬億次)、可擴展高效能計算機(百萬億次)等多種產品形態,到“十一五”末高效能計算機平均每萬億次的硬體成本要比曙光4000A時降低30倍,使得國產品牌高效能計算機的銷售量增加8-10倍,達到每年4000台以上,大大提高國內品牌高效能計算機的市場競爭力,有力地促進高效能計算機在中國的普及。