GeForce 200

GeForce 200

GeForce 200系列,代號D10U,是NVIDIA的第十代GeForce顯示晶元,NVIDIA稱GTX 200核心採用了第二代的統一架構。相對第一代,顯示核心除了專註立體效能的提升外,更專註非傳統的GPU應用。NVIDIA認為,隨著GPU的效能愈來愈大,可應用的範圍再不局限於立體計算,而GPU絕對有能力取代CPU,成為高效能運算的工具。為了凸顯第二代統一架構的功能,NVIDIA將顯卡的命名法則改變,不再是GeForce加上代表世代的數字。而是GeForce GTX、GeForce GT、GeForce GS和GeForce G。它們分別代表旗艦級、高端、中端和入門。

背景


GeForce 200
GeForce 200
首個產品GeForce GTX 280於2008年6月16日推出,是一款高端產品。隨後推出了中端的GTX 260。GTX 200系列擁有 65nm 製程的高階 D10U。與AMD不同,NVIDIA依然先推出單核心的旗艦級顯卡,再將其功能削減,成為中低端的顯卡。面對著對手AMD的Radeon R700顯示核心,GTX 200顯示核心顯得太複雜和成本高,不能與之有效競爭。所以NVIDIA即時將GeForce 9800 GTX降價,並提升其製程至55nm,再推出GeForce 9800 GTX+顯卡。有消息指在2009年1月8日開幕的CES 2009電子大展推出55nm版本的GT206核心及兩款新卡GTX285、GTX295。
背景

架構


NVIDIA稱第二代的統一架構,效能是上一代的1.5倍。核心的代號是D10U,採用65nm製程,擁有14億個晶體管。是第一款顯示核心的晶體管數量突破十億大關,但是它仍然不支援DirectX 10.1和Smart Shader 4.1。最能反映實際性能的流處理器方面,由上一代的128個,提升到240個。另外,它支援雙精度和64位元浮點運算
第二代統一架構
在GTX 280顯示核心中,總共有十個流處理器陣列。每個陣列中有24個流處理器,當中又以8個為一組。每一組流處理器都擁有獨立的本地內存,亦即是8個流處理器共享1個本地內存。本地內存的容量由16KB提升到32KB。另外,每一個陣列都有其獨立的L1緩衝內存,亦即是24個流處理器共享一個L1緩衝內存。加起來,GTX 280核心擁有240個流處理器。
GTX 200有兩個計算模式。一個是繪圖模式,另一個是并行處理模式。比較特別的是線程排序器,當線程在讀寫內存的時候,為了不耽誤整個計算,會直接計算另一項資料。這樣可以提升并行處理的效率,提升GPGPU的效能。
自上一代的G80開始,NVIDIA已放棄採用SIMD架構,改用全新的MIMD架構。在G80顯示核心中,所有的流處理器都是1D標量形式。NVIDIA認為這樣做最有效率,因為不用再顧忌數據是1D抑或是4D,所有的數據都會分折成標量1D。而對手AMD的顯示核心,依然是4D+1D架構。雖然NVIDIA的做法效率較高,但成本和複雜度亦較高,比較難大幅增加流處理器的數量,因為每一個流處理器都需要一個指令發射埠。而AMD的顯示核心方面,由於一個4D+1D的流處理器才需要一個指令發射埠,所以比較容易提升處理器的數量。
流處理器
上一代的G80核心中,每一個流處理器陣列有兩組流處理器。而在GTX 200系列顯示核心中,陣列數量提升為3組。每組流處理器的可執行線程數量,亦由768條提升列1024條。另外,每一個陣列都有8個紋理單元。
ROP
數量和效率都有所提升,有效改善AA性能。
緩存
8個流處理器會共享32KB的本地內存;而3組總共24個流處理器會共享一個L1緩存,減少對外部內存的依賴。
顯示內存
每一個顯示內存控制器的帶寬是64-bit,而GTX 280核心有8個控制器,總共的帶寬是512-bit。容量方面,由512MB提升到1GB。

其他技術


2008年2月,NVIDIA收購了AGEIA公司,取得有關的PhysX物理引擎技術。過去,該引擎必須以自家的物理加速卡作硬體加速,或者以CPU作軟體加速。隨著NVIDIA收購AGEIA,公司己著手改裝有關引擎,使之可以透過顯示核心加速該引擎。NVIDIA已推出用於顯卡加速的PhysX物理引擎驅動程式,在3DMark Vantage的測試中,CPU的得分受惠於顯示核心硬體加速了物理引擎,分數大幅上升。但採用該引擎的遊戲始終較少,分數能否反映事實仍是未知之數。
對手AMD則採用了Havok物理引擎作為解決方案。現時,Havok是Intel的子公司。而Havok亦答應將為其物理引擎,優化AMD的CPU和GPU。包括最新的Phenom處理器和Radeon R700顯卡。
NVIDIA認為,流處理器的地位可與CPU核心作比較。而一顆顯示核心,有多個的流處理器,使到顯卡非常適合作并行計算之用。NVIDIA有另一個產品線-NVIDIA Tesla,就是將顯示核心包裝為GPGPU產品。用來加速或者計算通用計算,亦即是非單純立體計算。CUDA可以讓程式員使用C語言,來使用顯示核心作為加速器。對手AMD認為,CUDA始終是閉源產品,並不會取得成功,所以推薦使用者使用另一個標準-OpenCL。有趣的是,NVIDIA同樣是參與了該計劃。
對於家用者來說,CUDA可以用來加速高清視頻的編碼。NVIDIA報稱效率是利用CPU的20倍,縱使某些演演算法仍然是交由CPU處理,使到CPU使用率仍然維持20%左右。亦說明顯示核心並不是可以處理所有的演演算法。另外,Folding@home科學計算項目已開始支援NVIDIA的顯卡。
Hybrid SLI
配合NVIDIA的AMD平台晶元組,例如780a或者750a晶元組,就可以啟動Hybrid SLI功能。在閑置的時候,獨立顯卡會完全關閉,只啟動整合式顯示核心,這樣就可以達到節能的效果。
PowerPlay
在不同的模式下,GPU會根據實際使用率去自行調整核心頻率。另外,某些不在使用中的模塊可以關閉,以節省電源。

產品系列


第一次發布
GeForce GTX 280
已停產。核心擁有240個流處理器,顯示內存帶寬是512-bit,顯存為1GB GDDR3。
GeForce GTX 260
定位是中高端顯卡,部分廠商己下調其價格到150美元,用作與Radeon HD 4870競爭。核心的流處理器數量下降至192個,顯示內存帶寬是448-bit。隨後,為了對抗Radeon HD 4870,NVIDIA會推出新版本的GTX 260核心,流處理器數量上升至216個,而廠商一般會使用GTX 260+作為型號以作分辨。
第二次發布
GeForce GTX 295
最新旗艦級。GeForce GTX 295擁有兩顆55nm GT206顯示核心,產品設計與GeForce 9800GX2相近。兩核心合共擁有480個流處理器,配備1792MB的GDDR3顯存,位寬896-bit,核心頻率為576MHz,核心頻率為1242MHz,顯存頻率為1998MHz〈DDR 999MHz〉。整卡功耗達289W,需要1個6pin及1個8pin外接供電介面。卡上提供了一個SLI橋接介面,用作支援雙卡並聯的Quad SLI模式。
GeForce GTX 285
相當於GTX 280的55nm GT206核心版本。同樣擁有240個流處理器、512-bit顯存位寬和1GB GDDR3顯存。顯存頻率未確定,但估計比GTX 280為高。功耗由GTX 280的236W降至183W,並只需要2個6pin外接供電介面。