《數(shù)據(jù)館員的Hadoop簡明手冊》旨在協(xié)助初級數(shù)據(jù)館員們能夠迅速了解Hadoop的知識、用途及整體概貌,作為進一步實踐操作之前的入門基礎讀物。
本手冊力求簡單、通俗、易懂,既不泛泛之談,也不過早深入細節(jié),而是力求把握重點。事實上,唯有實踐才能真正理解Hadoop的有趣之處和局限之處,但在實踐之前,或者考慮選擇架構之前,如果有這么一本手冊,會容易理解、溝通及評估。
《數(shù)據(jù)館員的Hadoop簡明手冊》包括5個部分。第1章概述分布式大數(shù)據(jù)的基本概念,以及開源軟件Hadoop的歷史、生態(tài)體系及主要版本的變化。第2章概述核心架構中的計算資源分配、列式計算的工具及索引。第3章概述分布式計算的MapReduce方案,這也是*為通用的一種方案,能滿足海量數(shù)據(jù)的處理。第4章概述如何優(yōu)化Hadoop的案例。*后,附錄介紹Hado叩家族產(chǎn)品。
顧立平(Alan Ku),博士、教授。在中國科學院文獻情報中心從事開放獲取、著作權、數(shù)據(jù)權益的政策研究與建議;在中國科學院大學經(jīng)濟與管理學院講授信息用戶與服務研究。學術理念和工作信念是:好做事(態(tài)度)、做好事(方向)、做事好(目標)。
第1章 Hadoop概念
1.1 Hadoop簡介
1.1.1 Hadoop是什么
1.1.2 Hadoop形成的歷史
1.1.3 Hadoop在云計算和大數(shù)據(jù)中的地位
1.1.4 Hadoop與Google FS的關系
1.1.5 小結
1.2 Hadoop生態(tài)系統(tǒng)
1.2.1 Hadoop組成
1.2.2 HDFS
1.2.3 MapReduce
1.3 Hadoop不同版本的變化
1.3.1 Hadoop版本的變化
1.3.2 HDFS→HDFS2
1.3.3 MapReduce 1.0→MapReduce 2.0
第2章 Hadoop的YARN、HBase、Hive組件
2.1 YARN
2.1.1 YARN的基本組成結構
2.1.2 YARN的工作流程
2.2 HBase
2.2.1 NoSQL數(shù)據(jù)庫
2.2.2 HBase分布式數(shù)據(jù)庫
2.3 Hive數(shù)據(jù)倉庫系統(tǒng)
2.3.1 Hive的定義
2.3.2 Hive和數(shù)據(jù)庫的異同
2.3.3 部分查詢邏輯實現(xiàn)舉例
第3章 MapReduce入門
3.1 MapReduce初析
3.2 MapReduce運行機制
3.3 Map函數(shù)和Reduce函數(shù)
3.4 Mapper和Reducer抽象類
3.5 Maplkeduce的最小驅(qū)動類
3.6 MapReduce的輸入與輸出
3.6.1 MapReduce的輸入InputFormat
3.6.2 MapReduce的輸出OutputFormat
3.7 自定義Writable和WritableComparable
3.8 技術詳解
3.8.1 Combiner詳解
3.8.2 Partitioner詳解
3.8.3 Distributed FileSystem詳解
3.9 Hadoop工具介紹
3.10 Counter-計數(shù)器和自定義Counter計數(shù)器
第4章 基于Hadoop二次開發(fā)實戰(zhàn)
4.1 MapReduce的優(yōu)化
4.2 Hadoop小文件優(yōu)化
4.3 任務調(diào)度
附錄 Hadoop家族產(chǎn)品