并行處理

并行處理

并行處理(Parallel Processing)是計算機系統中能同時執行兩個或更多個處理的一種計算方法。并行處理可同時工作於同一程序的不同方面。并行處理的主要目的是節省大型和複雜問題的解決時間。為使用并行處理,首先需要對程序進行并行化處理,也就是說將工作各部分分配到不同處理進程(線程)中。并行處理由於存在相互關聯的問題,因此不能自動實現。另外,并行也不能保證加速。從理論上講,在n個并行處理的執行速度可能會是在單一處理機上執行的速度的n倍。

特點


只有部分應用程序在滿足以下條件的情況下可利用并行處理:具有充足的能充分利用多處理機的應用程序;并行化目標應用程序或用戶需進行新的編碼來利用并行程序。
傳統上,多處理機專為“并行計算機”所設計,沿著這樣的思路,當前Linux支持SMP奔騰系統,在該系統中多處理機共享單個計算機中的單個存儲器和匯流排介面。每個運行Linux的機器組都有可能通過網路互相連接形成并行處理群。第三種選擇是使用Linux系統作為“主機”,提供專門的相關并行處理機(attached parallel processor)。第四種新選擇是寄存器內SIMD并行,應用於多媒體擴展(MMX)。
并行處理所需要提供的典型硬體環境有:
單處理機上的單個區;
多處理機(SMP)中的單個區;
多區配置
一個處理機(MPP)中的各區;
多處理機(SMP群)中的各區;
邏輯資料庫區(在AIX第1版的DB2并行版-DB2 PE中也稱之為多邏輯代碼或MLN)
并行計算機具有代表性的應用領域有:天氣預報建摸、VLSI電路的計算機輔助設計、大型資料庫管理、人工智慧、犯罪控制和國防戰略研究等,而且它的應用範圍還在不斷地擴大。并行處理技術主要是以演演算法為核心,并行語言為描述,軟硬體作為實現工具的相互聯繫而又相互制約的一種結構技術。

基本策略


在并行處理技術中所使用的演演算法主要遵循三種策略:
1.分而治之法:也就是把多個任務分解到多個處理器或多個計算機中,然後再按照一定的拓撲結構來進行求解。
2.重新排序法:分別採用靜態或動態的指令詞度方式。
3.顯式/隱式并行性結合:顯式指的是并行語言通過編譯形成并行程序,隱式指的是串列語言通過編譯形成并行程序,顯式/隱式并行性結合的關鍵就在於并行編譯,而并行編譯涉及到語句、程序段、進程以及各級程序的并行性。

描述定義


利用計算機語言進行并行性描述的時候主要有三種方案:
1.語言擴展方案:也就是利用各種語言的庫函數來進行并行性功能的擴展。
2.編譯制導法:也稱為智能編譯,它是隱式并行策略的體現,主要是由并行編譯系統進行程序表示、控制流的分析、相關分析、優化分析和并行化劃分,由相關分析得到方法庫管理方案,由優化分析得到知識庫管理方案,由并行化劃分得到程序重構,從而形成并行程序。
3.新的語言結構法:這是顯式并行策略的體現。也就是建立一種全新的并行語言的體系,而這種并行語言通過編譯就能直接形成并行程序。

并行軟體


并行軟體可分成并行系統軟體和并行應用軟體兩大類,并行系統軟體主要指并行編譯系統和并行操作系統,并行應用軟體主要指各種軟體工具和應用軟體包。在軟體中所牽涉到的程序的并行性主要是指程序的相關性和網路互連兩方面。
1.程序的相關性:程序的相關性主要分為數據相關、控制相關和資源相關三類。
數據相關說明的是語句之間的有序關係,主要有流相關、反相關、輸出相關、I/O相關和求知相關等,這種關係在程序運行前就可以通過分析程序確定下來。數據相關是一種偏序關係,程序中並不是每一對語句的成員都是相關聯的。可以通過分析程序的數據相關,把程序中一些不存在相關性的指令并行地執行,以提高程序運行的速度。
控制相關指的是語句執行次序在運行前不能確定的情況。它一般是由轉移指令引起的,只有在程序執行到一定的語句時才能判斷出語句的相關性。控制相關常使正在開發的并行性中止,為了開發更多的并行性,必須用編譯技術克服控制相關。
而資源相關則與系統進行的工作無關,而與并行事件利用整數部件、浮點部件、寄存器和存儲區等共享資源時發生的衝突有關。軟體的并行性主要是由程序的控制相關和數據相關性決定的。在并行性開發時往往把程序劃分成許多的程序段——顆粒。顆粒的規模也稱為粒度,它是衡量軟體進程所含計算量的尺度,一般用細、中、粗來描述。劃分的粒度越細,各子系統間的通信時延也越低,并行性就越高,但系統開銷也越大。因此,我們在進行程序組合優化的時候應該選擇適當的粒度,並且把通訊時延儘可能放在程序段中進行,還可以通過軟硬體適配和編譯優化的手段來提高程序的并行度。
2.網路互連:將計算機子系統互連在一起或構造多處理機或多計算機時可使用靜態或動態拓撲結構的網路。靜態網路由點一點直接相連而成,這種連接方式在程序執行過程中不會改變,常用來實現集中式系統的子系統之間或分散式系統的多個計算結點之間的固定連接。動態網路是用開關通道實現的,它可動態地改變結構,使之與用戶程序中的通信要求匹配。動態網路包括匯流排、交叉開關和多級網路,常用於共享存儲型多處理機中。在網路上的消息傳遞主要通過尋徑來實現。常見的尋徑方式有存儲轉發尋徑和蟲蝕尋徑等。在存儲轉發網路中以長度固定的包作為信息流的基本單位,每個結點有一個包緩衝區,包從源結點經過一系列中間結點到達目的結點。存儲轉發網路的時延與源和目的之間的距離(段數)成正比。而在新型的計算機系統中採用蟲蝕尋徑,把包進一步分成一些固定長度的片,與結點相連的硬體尋徑器中有片緩衝區。消息從源傳送到目的結點要經過一系列尋徑器。同一個包中所有的片以流水方式順序傳送,不同的包可交替地傳送,但不同包的片不能交叉,以免被送到錯誤的目的地。蟲蝕尋徑的時延幾乎與源和目的之間的距離無關。在尋徑中產生的死鎖問題可以由虛擬通道來解決。虛擬通道是兩個結點間的邏輯鏈,它由源結點的片緩衝區、結點間的物理通道以及接收結點的片緩衝區組成。物理通道由所有的虛擬通道分時地共享。虛擬通道雖然可以避免死鎖,但可能會使每個請求可用的有效通道頻寬降低。因此,在確定虛擬通道數目時,需要對網路吞吐量和通信時延折衷考慮。

硬體技術


硬體技術在硬體技術方面主要從處理機、存儲器和流水線三個方面來實現并行。
1.處理機:主要的處理機系列包括CISC、RISC、超標量、VL1W、超流水線、向量以及符號處理機。
傳統的處理機屬於複雜指令系統計算(CISC)結構。指令系統大,指令格式可變,通用寄存器個數較少,基本上使用合一的指令與數據高速緩存,時鐘頻率較低,CPI較高,大多數利用ROM實現微碼控制CPU,而當今的精簡指令系統計算(RISC)處理機指令格式簡單規範,面向寄存器堆,採用重疊寄存器窗口技術,具有多級Cache,多種流水線結構,強調編譯優化技術,時鐘頻率快,CPI低,大多數用硬連線控制CPU。
CISC或RISC標量處理機都可以採用超標量或向量結構來改善性能。標量處理機在每個周期內只發射一條指令並要求周期只完成從流水線來的一條指令。而在超標量處理機中,使用了多指令流水線,每個周期要發射多條指令併產生多個結果。由於希望程序中有許多的指令級并行性,因此超標量處理機更要依靠優化編譯器去開發并行性。
VL1W結構是將水平微碼和超標量處理這兩種普遍採用的概念結合起來產生的。典型的超長指令字VL1W 機器指令字長度有數百位。在VLlW 處理機中,多個功能部件是併發工作的,所有的功能部件共享使用公用大型寄存器堆,由功能部件同時執行的各種操作是用VL1W指令來同步的,每條指令可指定多個操作。VL1W指令解碼比超標量指令容易,但在開發不同數量的并行性時總是需要不同的指令系統。VL1W主要是開發標量操作之間的并行性,它的成功與否很大程度取決於代碼壓縮的效率,其結構和任何傳統的通用處理機完全不兼容。即使同一結構的不同實現也不大可能做到彼此二進位兼容。VL1W的主要優點在於它的硬體結構和指令系統簡單,在科學應用領域可以發揮良好作用,但在一般應用場合可能並不很好用。
向量處理機對數組執行向量指令,每條指令都包含一串重複的操作。它是專門設計用來完成向量運算的協處理機,通常用於多流水線超級計算機中。向量處理機可以利用循環級展開所得的并行性,它可以附屬於任何標量處理機。專用的向量流水線可以在循環控制中消除某些軟體開銷,它的效果與優化編譯器將順序代碼向量化的性能很有關係。從理論上說,向量機可以具有和超標量處理機同樣的性能,因此可以說向量機的并行性與超標量機相同。
符號處理機是為AI應用而研製的,已用於定理證明、模式識別、專家系統、知識工程、文本檢索、科學以及機器智能等許多應用領域。在這些應用中,數據和知識表達式、原語操作、演演算法特性、存儲器、I/0和通信以及專用的結構特性與數值計算是不一樣的,符號處理機也稱為邏輯程序設計語言處理機、表處理語言處理機或符號變換器。符號處理並不和數值數據打交道,它處理的是邏輯程序、符號表、對象、劇本、黑板、產生式系統、語義網路、框架以及人工神經網路等問題。這些操作需要專門的指令系統,通常不使用浮點操作。
2.存儲器:存儲設備按容量和存取時間從低到高可分為寄存器、高速緩存、主存儲器、磁碟設備和磁帶機五個層次。較低層存儲設備與較高層的相比,存取速度較快、容量較小,每位元組成本較高、帶寬較寬、傳輸單位較小。
存放在存儲器層次結構中的信息滿足三個重要特性:包含性、一致性和局部性。所謂包含性,指的是一個信息字的複製品可以在比它高的所有層中找到,而如果在高層中丟失了一個信息,則在比它低的所有層中此信息也將丟失。CPU和高速緩存之間的信息傳送是按字進行的,高速緩存和主存儲器間用塊作為數據傳送的基本單位,主存和磁碟之間又是以頁面為基本單位來傳送信息的,而在磁碟和磁帶機之間的數據傳送則是按文件級處理的。所謂一致性要求的是同一個信息項與後繼存儲器層次上的副本是一致的。也就是說,如果在高速緩存中的一個字被修改過,那麼在所有更高層上該字的副本也必須立即或最後加以修改。為了盡量減少存儲器層次結構的有效存取時間,通常把頻繁使用的信息放在較低層次。維護存儲器層次結構一致性一般有兩種策略,一種是寫直達策略,也就是如果,則立即在所有高層存儲器中進行同樣的修改;另一種是寫回策略,也就是在較低層中對信息進行修改後並不立即在高層存儲器中進行相應的修改,而是等到該信息將被替換或將從低層中消失時才在所有高層存儲器中進行同樣的修改。甚至可以將寫直達和寫回策略的優點結合起來,形成寫一次協議來維護存儲器的一致性。
存儲器的層次結構是在一種程序行為——訪問的局部性基礎上開發出來的。主要有時間局部性、空間局部性和順序局部性。時間局部性指的是最近的訪問項很可能在不久的將來再次被訪問。它往往會引起對最近使用區域的集中訪問。空間局部性表示一種趨勢,指的是一個進程訪問的各項其地址彼此很近。順序局部性指的是在典型程序中,除非是轉移指令,一般指令都是順序執行的。
在多處理機系統中一般使用共享存儲器。對共享存儲器的組織一般採用低位交叉、高位交叉、高低位交叉三種方法。低位交叉又稱併發存取,它是把相鄰的地址放在相鄰的存儲器模塊中,在訪問時不容易產生衝突,并行性較好,但可靠性容錯能力和擴展性均較差。高位交叉又稱允許同時存取,它是把相鄰地址分配到同一個存儲器模塊中,可靠性、容錯能力和擴展性均較強,但訪問時易產生衝突,帶寬較窄,并行性較差。高低位交叉存取又稱C—s存取,它是結合了高位交叉和低位交叉兩種方法的優點,既解決了衝突問題,又能有效地提高容錯能力和并行性,最適合於向量處理機結構。
3.流水線:流水線技術主要有指令流水線技術和運算流水線技術兩種。
指令流水線技術主要目的是要提高計算機的運行效率和吞吐率。它主要通過設置預取指令緩衝區、設置多功能部件、進行內部數據定向、採取適當的指令調度策略來實現。指令調度的策略主要有靜態和動態兩種,靜態詞度是基於軟體的,主要由編譯器完成,動態詞度是基於硬體的,主要是通過硬體技術進行。
運算流水線主要有單功能流水線和多功能流水線兩種。其中多功能流水線又可分為靜態流水線和動態流水線。靜態流水線技術只用來實現確定的功能,而動態流水線可以在不同時間重新組合,實現不同的功能,它除流線連接外,還允許前饋和反饋連接,因此也稱為非線性流水線。這些前饋和反饋連接使得進入流水線的相繼事件的詞度變得很不簡單。由於這些連接,流水線不一定從最後一段輸出。根據不同的數據流動模式,人們可以用同一條流水線求得不同功能的值。

發展簡述


40年代開始的現代計算機發展歷程可以分為兩個明顯的發展時代:串列計算時代、并行計算時代。每一個計算時代都從體系結構發展開始,接著是系統軟體(特別是編譯器與操作系統)、應用軟體,最後隨著問題求解環境的發展而達到頂峰。創建和使用并行計算機的主要原因是因為并行計算機是解決單處理器速度瓶頸的最好方法之一。
并行計算機是由一組處理單元組成的,這組處理單元通過相互之間的通信與協作,以更快的速度共同完成一項大規模的計算任務。因此,并行計算機的兩個最主要的組成部分是計算節點和節點間的通信與協作機制。并行計算機體系結構的發展也主要體現在計算節點性能的提高以及節點間通信技術的改進兩方面。
60年代初期,由於晶體管以及磁芯存儲器的出現,處理單元變得越來越小,存儲器也更加小巧和廉價。這些技術發展的結果導致了并行計算機的出現,這一時期的并行計算機多是規模不大的共享存儲多處理器系統,即所謂大型主機(Mainframe)。IBM360是這一時期的典型代表。
到了60年代末期,同一個處理器開始設置多個功能相同的功能單元,流水線技術也出現了。與單純提高時鐘頻率相比,這些并行特性在處理器內部的應用大大提高了并行計算機系統的性能。伊利諾依大學和Burroughs公司此時開始實施IlliacIV計劃,研製一台64個CPU的SIMD 主機系統,它涉及到硬體技術、體系結構、I/O設備、操作系統、程序設計語言直至應用程序在內的眾多研究課題。不過,當一台規模大大縮小了的16CPU系統終於在1975年面世時,整個計算機界已經發生了巨大變化。
首先是存儲系統概念的革新,提出虛擬存儲和緩存的思想。IBM360/85系統與360/91是屬於同一系列的兩個機型,360/91的主頻高於360/85,所選用的內存速度也較快,並且採用了動態調度的指令流水線;但是,360/85的整體性能卻高於360/91,唯一的原因就是前者採用了緩存技術,而後者則沒有。
其次是半導體存儲器開始代替磁芯存儲器。最初,半導體存儲器只是在某些機器被用作緩存,而CDC7600則率先全面採用這種體積更小、速度更快、可以直接定址的半導體存儲器,磁芯存儲器從此退出了歷史舞台。與此同時,集成電路也出現了,並迅速應用到了計算機中。元器件技術的這兩大革命性突破,使得IlliacIV的設計者們在底層硬體以及并行體系結構方面提出的種種改進都大為遜色。
1976年CRAY-1問世以後,向量計算機從此牢牢地控制著整個高性能計算機市場15年。CRAY-1對所使用的邏輯電路進行了精心的設計,採用了我們如今稱為RISC的精簡指令集,還引入了向量寄存器,以完成向量運算。這一系列全新技術手段的使用,使CRAY-1的主頻達到了80MHz。
微處理器隨著機器的字長從4位、8位、16位一直增加到32位,其性能也隨之顯著提高。正是因為看到了微處理器的這種潛力,卡內基-梅隆大學開始在當時流行的DECPDP11 小型計算機的基礎上研製成功一台由16個PDP11/40 處理機通過交叉開關與16個共享存儲器模塊相連接而成的共享存儲多處理器系統C.mmp。
從80年代開始,微處理器技術一直在高速前進。稍後又出現了非常適合於SMP方式的匯流排協議,而伯克利加州大學則對匯流排協議進行了擴展,提出了Cache一致性問題的處理方案。從此,C.mmp開創出的共享存儲多處理器之路越走越寬;現在,這種體系結構已經基本上統治了伺服器和桌面工作站市場。
同一時期,基於消息傳遞機制的并行計算機也開始不斷湧現。80年代中期,加州理工成功地將64個i8086/i8087處理器通過超立方體互連結構連結起來。此後,便先後出現了Intel iPSC 系列、INMOS Transputer系列,Intel Paragon以及IBM SP的前身Vulcan等基於消息傳遞機制的并行計算機。
80年代末到90年代初,共享存儲器方式的大規模并行計算機又獲得了新的發展。IBM將大量早期RISC微處理器通過蝶形互連網路連結起來。人們開始考慮如何才能在實現共享存儲器緩存一致的同時,使系統具有一定的可擴展性(Scalability)。90年代初期,斯坦福大學提出了DASH計劃,它通過維護一個保存有每一緩存塊位置信息的目錄結構來實現分散式共享存儲器的緩存一致性。後來,IEEE在此基礎上提出了緩存一致性協議的標準。
90年代以來,主要的幾種體系結構開始走向融合。屬於數據并行類型的CM-5除大量採用商品化的微處理器以外,也允許用戶層的程序傳遞一些簡單的消息;CRAY T3D是一台NUMA結構的共享存儲型并行計算機,但是它也提供了全局同步機制、消息隊列機制,並採取了一些減少消息傳遞延遲的技術。
隨著商品化微處理器、網路設備的發展,以及MPI/PVM等并行編程標準的發布,機群架構的并行計算機出現。IBM SP2系列機群系統就是其中的典型代表。在這些系統中,各個節點採用的都是標準的商品化計算機,它們之間通過高速網路連接起來。
越來越多的并行計算機系統採用商品化的微處理器加上商品化的互連網路構造,這種分佈存儲的并行計算機系統稱為機群。國內幾乎所有的高性能計算機廠商都生產這種具有極高性能價格比的高性能計算機,并行計算機就進入了一個新的時代,并行計算的應用達到了前所未有的廣度和深度。
并行計算機隨著微處理晶元的發展,已經進入了一個新時代。并行計算機的性能已經突破20PFLOPS,正在向百億億次發展。中國并行計算機的研製已經走在世界前列。2003年由聯想公司生產的深騰6800在2003年11月世界TOP500排名中位列第14名,2004年曙光公司生產的曙光4000A 在2004年6月的世界TOP500排名中位列第10名,這是中國公開發布的高性能計算機在世界TOP500中首次進入前十名,這標誌著中國在并行計算機系統的研製和生產中已經趕上了國際先進水平,為提高中國的科學研究水平奠定了物質基礎。2013年國際超級計算機大會最新發布的世界超級計算機500強排名中,國防科技大學研製的天河二號超級計算機系統,以峰值計算速度每秒5.49億億次、持續計算速度每秒3.39億億次雙精度浮點運算的優異性能位居榜首。
從TOP500的前10名來看,美國仍然是超級計算機的最大擁有者。按照世界TOP500的統計數據來分析,美國在計算能力上佔有近全世界的一半,在TOP500中的所有計算機中擁有的數量超過50%。