信息網格

信息網格

信息網格是網格計算模型的核心組件。它使最終用戶和應用程序可以獲得對任何信息源的安全訪問,不管它在什麼地方。這種訪問可以通過內部網、Internet、甚至在一個外部網(extranet)環境中的本地和分散式網路進行。信息網格提供了對異質文件、資料庫和存儲系統的訪問,並且它支持共享數據以用於處理和大規模的協作。

名詞解釋


什麼是信息?
信息現代定義。[2006年,醫學信息(雜誌),鄧宇等].
信息是 物質、能量、信息及其屬性的標示。逆維納信息定義
信息是 確定性的增加。逆香農信息定義
信息是 事物現象及其屬性標識的集合。2002年

簡介


Internet 在 20 世紀 90 年代初出現以來,IBM 一直積極地參與一種最新信息技術的市場開拓和培養,從而獲得發展動力。這種新技術就是網格計算。IBM 將網格計算定義為在開放標準的支持下,通過異質資源的網路進行的分散式計算。雖然網格計算側重於如何通過虛擬化技術、作業調度和負載平衡來優化 IT 基礎設施,但還有另一個同等重要的組件:信息網格。
網格計算獲得了越來越多的應用,問題開始改變了。雖然網格實現最初關注的可能是加快應用程序的處理時間,但是現在面臨的是新的挑戰 —— 在網格中移動數據。這些挑戰是要保證可以容易地訪問輸入數據(如果有的話),並在將這些數據傳輸到分散式環境中的計算位置時不會產生網路帶寬問題。
信息網格解決了以下難題:
由於以下原因產生的現有數據資源和資產的碎片:
異質環境。
未充分利用的計算和存儲資源。
笨拙的數據訪問和糟糕的集成。
數據安全和保護。
對分散型系統和資源的複雜管理。
IT 基礎設施的高昂的總成本。
靈活和難於改變的系統。
信息網格解決了管理信息的問題,這些信息跨越異質硬體和軟體資源,包括資料庫、文件和存儲設備。

分散式 IT 環境中的信息挑戰


雖然對數據的考慮對於許多不同的環境都是有效的,但是分散式環境提出了獨特的挑戰。為了討論對這些挑戰的可能解決方案,我們要描述一個虛構的場景,並將重點放到如何用分散式環境中的數據和處理中心解決特定的問題。
下面就是這個場景:一個金融機構在地理位置上有分佈在全球的分支機構。在洛杉磯辦事處,財務顧問為本地客戶的需要提供支持,並為每個本地客戶檔案創建和管理財務信息。信息是以文件和資料庫格式維護的。
在紐約辦事處有一個大型數據中心,在這裡存儲並處理 Standard & Poor 的歷史數據。
芝加哥有另一個大型數據中心,在這裡存儲和處理關於商品市場的信息。每一個地區的數據都是用存儲區域網路(Storage Area Network)技術管理的。
在我們的場景中,一個財務顧問收到了她的客戶的一個電話。為了解決客戶的需要,這位顧問希望能夠讀取客戶的財務檔案的當前數據。她提交了一個作業(一個檔案分析應用程序),這個作業發送到網格環境中運行。在這種情況下,這個作業被調度到在芝加哥地區執行,因為芝加哥的處理器的當前利用率要低於紐約
在作業開始時,過程必須從洛杉磯地區獲取本地客戶數據。第一個 I/O 從文件系統中獲取數據。第二個 I/O 獲取在關係資料庫中以表的形式管理的數據。
當作業從洛杉磯地區獲取了它所需要的所有數據后,處理就在芝加哥地區繼續進行。
我們現在遇到了計算中的一個常見問題:訪問以不同格式存儲的數據的需要。這是一個挑戰出於好幾個理由。應用程序必須執行多個 I/O 請求以獲取數據,這種要求延緩了作業的執行。第二,構建和維護這種類型的應用程序 —— 如檔案分析 —— 的程序員必須了解這些不同的格式,並且必須確定如何在它們的應用程序中將分散的數據結合到一起。
下一個問題 —— 數據資源利用 —— 源自混合多個廠商的不同存儲和文件系統,這通常是由於公司合併和收購所產生的。管理員手工管理跨越這些不同的存儲設備放置的數據成本是很高的。在許多情況下,當作業試圖從這些設備獲取數據時就會出現瓶頸。
第 3 個挑戰:網路帶寬
財務分析師的檔案分析應用程序還需要處理在紐約地區管理的數據。不過,因為引用了大量數據,在芝加哥地區的處理會因為等待從紐約獲取的數據而減慢。最後一個問題的發生是因為在紐約和芝加哥之間沒有足夠的網路帶寬,不能滿足傳輸由檔案分析應用程序所要求的大量數據的傳輸需要。

信息網格:這些挑戰的解決方案


對於我們的場景中展現的每一個挑戰,信息網格都提供了解決方案,通常都通過結合其他的技術。

第 1 個挑戰的解決方案


—— 訪問以不同格式存儲的數據
為了解決訪問以不同格式存儲的數據的挑戰,信息網格支持對不同格式數據的虛擬訪問。程序員只需要簡化對以混合格式存儲的數據(如多家廠商的關係資料庫和無格式文件)的訪問,以便用一個 SQL 指令訪問這些數據類型。這種簡化還減少了通過網路移動遠程文件的需要。通過虛擬化,數據不需要傳輸到處理位置(例如,通過 FTP)。這種數據虛擬視圖也稱為對數據的聯合(federated)訪問,使數據看起來來自於同一種格式,即使數據是以混合的格式存儲並且是分散式的。

第 2 個挑戰的解決方案


—— 數據資源利用
為了解決糟糕的存儲資源利用的問題,信息網格支持使用存儲訪問網路(Storage Access Network,SAN)技術。優化的解決方案包括 SAN 軟體,它使系統管理員可以創建所有 SAN 存儲設備的虛擬視圖,使它們看來像是一個同質的集合。通常,客戶安裝了異質(多廠商)存儲設備,每一家廠商的存儲設備都有自己的管理控制台。因此,系統管理員很難高效地管理跨不同設備的數據放置,並保證數據平衡地裝載到這些設備上。數據的非平衡分佈使一些設備被過度使用,而另外一些設備未充分利用。這種不平衡的條件會在應用程序試圖獲取數據時導致瓶頸,並在處理數據時變慢。
信息網格支持虛擬化門戶,它整合了所有 SAN 設備的視圖。這個門戶允許單個管理員看到數據裝載到這些設備上的情況,並將數據從過度使用的設備上轉移到未充分使用的設備上,同時不會幹擾應用程序訪問數據的方式。
類似地,異質文件系統的虛擬化可以幫助管理員管理複雜的 SAN 環境。為文件系統創建單一的名稱空間可以幫助程序員和管理員更容易地找到並訪問數據,因為他們不必再分別找出文件,並確定需要什麼訪問路徑以引用這些數據。
SAN 環境中的其他考慮包括錯誤檢測和數據彈性(resiliency)。重要的是在嚮應用程序提供正確數據的同時,數據仍然是受保護的和安全的。

第 3 個挑戰的解決方案


—— 網路帶寬
為了解決必須跨網路移動大量數據以進行遠程處理的問題,信息網格支持開發一種軟體解決方案。這種解決方案應當將數據緩存到靠近分散式處理要發生的位置。理想的解決方案將包括全局命名、對一致的當前數據的安全廣域訪問,以及分散式數據訪問(包括一個 POSIX/NFS 介面、訪問控制和遠程數據緩存)。

優化信息網格


一個優化的信息網格將實現前述的解決方案,因為它們解決了訪問數據、管理異質文件和存儲系統時會遇到的許多主要潛在問題,並消除了為遠程處理提供數據的網路影響。這些解決方案將為信息網格中的分散式計算提供虛擬環境的最大優勢。下面的兩個選項顯示了在前面討論的檔案分析場景中使用這些解決方案,並使檔案分析應用程序支持網格計算的結果。

選項 1

在檔案分析場景中,應用程序將運行得更有效,因為對數據的請求是通過一個關係表形式的 I/O 來滿足的。異質數據源的虛擬化(第 1 個解決方案)使單一 I/O 成為可能。作為輸入訪問並在芝加哥輸出的數據也可以根據其他資源的可用性和需求分佈到不同的存儲資源上(第 2 個解決方案)。同時,數據緩存在網路中。每次在事務引用洛杉磯的客戶數據時,數據就會推送到網路緩存中,這樣其他需要這些數據的應用程序就可以得到它們的本地副本(第 3 個解決方案)。

選項 2

如果應用程序本身也支持網格,也就是說,如果應用程序的不同部分可以同時在不同的位置運行,那麼這些解決方案可以更有效地運行。在選項 1 中,應用程序只是在芝加哥進行處理。網格使得應用程序可以支持并行處理,可以在芝加哥和紐約同時進行處理。由於數據是緩存在紐約的,支持網格的應用程序可以充分利用在企業中的所有可用的處理能力。我們現在可以將應用程序發送到這兩個城市的數據中心運行,並在同一時刻引用同樣的數據集。并行處理加快了應用程序的執行並將結果更快地交還給洛杉磯分支機構。
如果信息能夠以虛擬方式進行管理和展示,企業將具有極大的靈活性,從而優化所有計算資產的利用。