Hadoop 基本組成結構
- Hadoop HDFS 分布式文件系統
- Map Reduce 分布式離線并行計算框架
- Hadoop YARN 作業調度、集群資源管理的框架
- Hadoop Common 支持其他模塊的工具模塊(Configuration、RPC、序列化機制、日志)
Map Reduce
Map 將原始任務進行拆分
Reduce 將任務的結果進行合并
MapReduce將分布式的方法進行了封裝,簡化了分布式程序的開發過程
基本Map Reduce 程序結構
Map 階段
Reduce 階段
Driver 階段
Hadoop 序列化
序列化的作用是將內存中的對象轉換成字節序列便于存儲