共找到2條詞條名為高性能計算集群的結果 展開

高性能計算集群

高性能計算集群

高性能計算集群(英語:High-PerformanceComputingCluster,簡稱HPCC),也被稱為數據分析超級計算機,是一個由律商聯訊風險解決方案發展的開放源代碼數據密集型計算系統平台。

簡介


HPCC(高性能計算集群)也稱為 DAS(數據分析超級計算機),是由LexisNexis風險解決方案開發的開源,數據密集型計算系統平台。HPCC平台整合了在商品計算集群上實現的軟體架構,為使用大數據的應用程序提供高性能的數據并行處理。HPCC平台包括支持并行批處理數據處理(Thor)和使用索引數據文件(Roxie)的高性能在線查詢應用程序的系統配置。HPCC平台還包含一個以數據為中心的并行數據處理聲明性編程語言ECL。

系統架構


圖1
圖1
HPCC系統體系結構包括兩個不同的集群處理環境,每個集群處理環境都可以獨立進行優化,以實現并行數據處理目的。這些平台中的第一個被稱為數據精鍊廠,其總體目的是用於任何目的的大量的任何類型的原始數據的一般處理,但通常用於數據清理和衛生,提取,轉換,原始數據的載入處理,記錄鏈接和實體解析,大規模特設的複雜分析以及創建鍵控數據和索引以支持高性能結構化查詢和數據倉庫應用程序。數據精鍊廠也被稱為Thor,這個大鎚象徵著把大量的原始數據壓縮成有用的信息。Thor集群的功能,執行環境,文件系統和功能與Google和Hadoop MapReduce平台類似。
圖1顯示了一個物理Thor處理集群的表示,該集群充當可伸縮的數據密集型計算應用程序的批處理作業執行引擎。除了Thor主節點和從節點之外,還需要額外的輔助和通用組件來實現完整的HPCC處理環境。
圖2
圖2
第二個并行數據處理平台被稱為Roxie,可用作快速數據傳輸引擎。該平台設計為在線高性能結構化查詢分析平台或數據倉庫,通過Web服務介面支持在線應用程序的并行數據訪問處理需求,支持數以千計的同步查詢和用戶分秒的響應時間。Roxie使用分散式索引文件系統使用優化的執行環境和用於高性能在線處理的文件系統來提供對查詢的并行處理。Roxie集群與Hadoop的功能和功能類似,增加了HBase和Hive功能,並提供近乎實時的可預測查詢延遲。Thor和Roxie集群都使用ECL編程語言來實現應用程序,從而提高了連續性和程序員的生產力。
圖2顯示了一個物理Roxie處理集群的表示,該集群充當高性能查詢和數據倉庫應用程序的在線查詢執行引擎。Roxie集群包含多個節點,其中包含用於處理查詢的伺服器和工作進程;一個稱為ESP伺服器的附加輔助組件,為外部客戶端訪問群集提供介面;以及在HPCC環境中與Thor群集共享的其他常用組件。雖然Thor處理集群可以在沒有Roxie集群的情況下實施和使用,但是包含Roxie集群的HPCC環境還應該包含Thor集群。Thor集群用於構建Roxie集群使用的分散式索引文件,並開發將與索引文件一起部署到Roxie集群的在線查詢。

軟體架構


HPCC軟體體系結構包含Thor和Roxie集群以及通用中間件組件,外部通信層,提供最終用戶服務和系統管理工具的客戶端介面,以及支持監視和輔助文件系統載入和存儲的輔助組件來自外部的數據。HPCC環境只能包含Thor集群,或Thor和Roxie集群。整個HPCC軟體體系結構如圖3所示。