Hadoop
- 起源
- Google File System
- Map-Reduce
- Log
- 2010/12/7
- 實例
- Rackspace 郵件部門用來分析哪些Data Center 需要增加 Mail Server
- 相關資源
- http://www.hadoopbook.com/
- 主要框架
- 文件系統 HDFS
- 計算架構 MapReduce
- 適合處理需要分析整個數據集的問題
- 適合數據被一次寫入和多次讀取的應用
- 對於非結構化或半結構化數據非常有效
- 因為被設計為在處理時間內解釋數據
- 數據本地化功能
- 嘗試在計算節點儲存數據, 因此數據處理速度會因為他是本地數據而比較快
- 以 鍵/值對函數的角度來考慮, 同時對數據流是隱含的
- 檢測失敗的map 或者是 reduce任務, 在健康的機器重新安排任務
- 可以作到這一點是因為無共享的架構.意味著每個任務彼此並不依賴
- 結構化數據處理 HBase
- Hint
- 古時候, 人們用牛來拉重物, 當一頭牛拉不動一根圓木的時候, 他們不曾想過培育個更大的牛. 同樣, 我們也不需要嘗試更大的計算機, 而是應該開發更多的計算系統 --格蕾斯.霍柏
- Notes
- Chapter 1
- 數據傳輸速度 100M/s, 但是 1TB 的儲存媒體已經是很普遍了, 光讀取出來就要花 2.5 小時
- 作法:從多個磁碟讀取數據,這樣存取的時間會大大的降低
- 需要解決的問題1: 硬體故障, 應對方式:複製資料 Replication
- 需要解決的問題2: 合併資料如何保持正確性. Hadoop 使用Map Reduce 將資料組成為成對 鍵/值 的數據集
- High Performance computing HPC
- 使用MPI(Message Passing Interface)
- 廣義上來說, 就是將作業分配給一個機器叢集, 然後存取Shared Storage. 適用於主計算密集型的作業
- 但是如果節點需要處理大量的數據量,這個時候就會成為一個問題,因為網路的速度成為瓶頸,所以計算節點閒置下來. 這個也是MapReduce 開始發光的起點
- 數據傳輸速度 100M/s, 但是 1TB 的儲存媒體已經是很普遍了, 光讀取出來就要花 2.5 小時
- Chapter 1
沒有留言:
張貼留言