Cascading
Cascading
Cascading是一個架構在Hadoop上的API。Cascading目前依賴於Hadoop提供存儲和執行架構,但是Cascading API為開發者隔離了Hadoop的技術細節,提供了不需要改變初始流程工作流定義就可以在不同的計算框架內運行的能力。
Hadoop是Apache開源組織的一個分散式計算開源框架,在很多大型網站上都已經得到了應用,如亞馬遜、Facebook和Yahoo等等。它主要由MapReduce的演演算法執行和一個分散式的文件系統HDFS等兩部分組成。
HDFS:即Hadoop Distributed File System (Hadoop分散式文件系統)
HDFS具有高容錯性,並且可以被部署在低價的硬體設備之上。HDFS很適合那些有大數據集的應用,並且提供了對數據讀寫的高吞吐率。