關(guān)于我們
書單推薦
新書推薦
|
職業(yè)教育賽教一體化課程改革系列規(guī)劃教材:大數(shù)據(jù)技術(shù)與應(yīng)用Ⅰ 本書教學(xué)設(shè)計遵循教學(xué)規(guī)律,對真實項目進(jìn)行了科學(xué)拆分與提煉。主要內(nèi)容分為Hadoop大數(shù)據(jù)技術(shù)基礎(chǔ)與Hadoop 大數(shù)據(jù)分析案例兩部分,前者包括大數(shù)據(jù)的有關(guān)概念、Hadoop 概述、Hadoop集群的部署與管理、HDFS、MapReduce編程以及Hadoop生態(tài)的其他常用組件ZooKeeper、HBase 、Hive 、Sqoop 、Flume 、Storm 、Kafka 的工作原理、安裝部署和使用方法,后者通過基于云虛擬實訓(xùn)平臺的學(xué)情分析系統(tǒng)項目完整展示了大數(shù)據(jù)分析的過程。全書遵循理論夠用、實用,實踐*的原則選擇內(nèi)容,編排合理,表述深入淺出,所有操作命令全部按序列出,并配有解釋和運行截圖,指導(dǎo)性、實用性強,能使讀者快速、輕松地掌握Hadoop大數(shù)據(jù)平臺運維和分析的基本技術(shù)。本書適合作為高等職業(yè)院校電子信息大類各專業(yè)學(xué)習(xí)Hadoop大數(shù)據(jù)技術(shù)的教材,也可作為培訓(xùn)學(xué)校的培訓(xùn)教材,還可作為大數(shù)據(jù)愛好者的自學(xué)用書。 本書教學(xué)設(shè)計遵循教學(xué)規(guī)律,對真實項目進(jìn)行了科學(xué)拆分與提煉。 為認(rèn)真貫徹落實教育部實施新時代中國特色高水平高職學(xué)校和專業(yè)群建設(shè),扎實、持續(xù)地推進(jìn)職校改革,強化內(nèi)涵建設(shè)和高質(zhì)量發(fā)展,落實雙高計劃,抓好2019 年職業(yè)院校信息技術(shù)人才培養(yǎng)方案實施及配套建設(shè),在湖北信息技術(shù)職業(yè)教育集團(tuán)的大力支持下,武漢唯眾智創(chuàng)科技有限公司統(tǒng)一規(guī)劃并啟動了職業(yè)教育賽教一體化課程改革系列規(guī)劃教材(《云計算技術(shù)與應(yīng)用》《大數(shù)據(jù)技術(shù)與應(yīng)用Ⅰ》《網(wǎng)絡(luò)綜合布線》《物聯(lián)網(wǎng).NET 開發(fā)》《物聯(lián)網(wǎng)嵌入式開發(fā)》《物聯(lián)網(wǎng)移動應(yīng)用開發(fā)》),本書是教育教學(xué)一線專家、教育企業(yè)一線工程師等專業(yè)團(tuán)隊的匠心之作,是全體編委精益求精,在日復(fù)一日年復(fù)一年的工作中,不斷探索和超越的教學(xué)結(jié)晶。本書教學(xué)設(shè)計遵循教學(xué)規(guī)律,涉及內(nèi)容是真實項目的拆分與提煉。大數(shù)據(jù)技術(shù)讓我們以一種前所未有的方式,對海量數(shù)據(jù)進(jìn)行處理與分析,從中挖掘出高價值的信息。但同時,大數(shù)據(jù)技術(shù)也是一門綜合性強、難度大的技術(shù),掌握好它不是一件容易的事。本書是一本介紹Hadoop 大數(shù)據(jù)技術(shù)的入門書。編者在對大數(shù)據(jù)運維和大數(shù)據(jù)分析崗位職業(yè)能力進(jìn)行分析的基礎(chǔ)上,以基于工作過程課程開發(fā)理論為依據(jù),結(jié)合高職學(xué)生的學(xué)習(xí)特點,遵循從大數(shù)據(jù)初學(xué)者到大數(shù)據(jù)運維工程師和大數(shù)據(jù)分析工程師的職業(yè)能力發(fā)展過程和學(xué)生認(rèn)知規(guī)律,按照由淺入深、由易到難的順序整合、序化、串聯(lián)過程性知識,較為全面地介紹了大數(shù)據(jù)的有關(guān)概念和Hadoop 生態(tài)常用組件的工作原理、安裝部署及使用方法,最后通過一個企業(yè)真實項目基于云虛擬實訓(xùn)平臺的學(xué)情分析系統(tǒng)給讀者展示了大數(shù)據(jù)分析的全流程。本書便于教師開展項目導(dǎo)向、任務(wù)驅(qū)動模式的教學(xué),實施在做中學(xué)、在學(xué)中做、教學(xué)練做于一體的理論實踐一體化教學(xué)。全書教學(xué)內(nèi)容分為Hadoop 大數(shù)據(jù)技術(shù)基礎(chǔ)與Hadoop 大數(shù)據(jù)分析案例兩部分。前者包括大數(shù)據(jù)的有關(guān)概念、Hadoop 概述、Hadoop 集群的部署與管理、HDFS、MapReduce 編程以及Hadoop 生態(tài)的其他常用組件ZooKeeper、HBase、Hive、Sqoop、Flume、Storm、Kafka 的工作原理、安裝部署和使用方法,后者通過項目基于云虛擬實訓(xùn)平臺的學(xué)情分析系統(tǒng)完整展示了大數(shù)據(jù)分析的過程。全書遵循理論夠用、實用,實踐第一的原則選擇內(nèi)容,合理編排,表述深入淺出。本書有兩大特點:一是所有實驗循序漸進(jìn),都有完整的命令和代碼及其運行截圖,便于讀者對照學(xué)習(xí),能有效降低學(xué)習(xí)難度,提高學(xué)習(xí)效率,指導(dǎo)性、實用性強。二是采用虛擬機技術(shù),所有基礎(chǔ)實驗?zāi)茉谄胀ㄅ_式機上完成,便于實踐教學(xué)條件不足的學(xué)校開展大數(shù)據(jù)教學(xué)。書中案例源于企業(yè)真實項目,可操作性強,能幫助讀者快速掌握大數(shù)據(jù)分析的基本技能。本書由武漢職業(yè)技術(shù)學(xué)院胡大威、武漢軟件工程職業(yè)學(xué)院孫琳任主編;由武漢城市職業(yè)學(xué)院王世剛、荊州職業(yè)技術(shù)學(xué)院孫重巧、湖北三峽職業(yè)技術(shù)學(xué)院陳文明、武漢唯眾智創(chuàng)科技有限公司冉柏權(quán)任副主編。具體分工如下:胡大威編寫了單元1、3、4、5、6、10,孫琳編寫了單元2、7、8、13,王世剛編寫了單元9,孫重巧編寫了單元11,陳文明編寫了單元12,冉柏權(quán)編寫了單元14,全書由胡大威統(tǒng)稿。本書在編寫過程中參考和借鑒了大量國內(nèi)外新著作和網(wǎng)上資料,在此對所參考著作和資料的作者及相關(guān)出版單位表示衷心的感謝!另外,對本書編寫及出版過程中給予支持的同事、朋友及相關(guān)人士表示感謝!由于時間倉促,編者水平有限,書中難免有遺漏和不足之處,敬請各位讀者批評指正。編者2019 年5 月于武漢 胡大威:1990年7月參加工作,1996年到武漢職業(yè)技術(shù)學(xué)院計算機學(xué)院任教至今,2012年晉升為教授。主持完成了2項省級課題和1項中國電子教育學(xué)會課題,2項省級課題在研;公開發(fā)表獨撰學(xué)術(shù)論文26篇,其中6篇在中文核心期刊上發(fā)表,9篇論文獲得中國職業(yè)技術(shù)教育學(xué)會和中國高等職業(yè)技術(shù)教育研究會優(yōu)秀論文獎;主編了包括1本普通高等教育十一五國家級規(guī)劃教材(高職高專教育)在內(nèi)的20本教材,總字?jǐn)?shù)180萬字。湖北省級精品課程負(fù)責(zé)人、湖北省品牌專業(yè)負(fù)責(zé)人。校學(xué)術(shù)委員會委員。指導(dǎo)學(xué)生參加2017年全國職業(yè)院校技能大賽高職組大數(shù)據(jù)技術(shù)與應(yīng)用賽項獲得一等獎,榮獲優(yōu)秀指導(dǎo)老師獎。指導(dǎo)學(xué)生參加藍(lán)橋杯全國軟件專業(yè)人才設(shè)計與創(chuàng)業(yè)大賽多次獲得總決賽一、二、三等獎,指導(dǎo)學(xué)生參加第七屆全國信息技術(shù)應(yīng)用水平大賽ITAT全國總決賽獲全國特等獎。孫琳 :高級工程師,CCF會員。雙師型教師,省級教學(xué)團(tuán)隊軟件技術(shù)專業(yè)教學(xué)團(tuán)隊主要成員,一直在教學(xué)科研一線工作。工作以來,積極參與科研與教研活動,主持省市級教科研課題5項,其中CCF職業(yè)教育科研重點課題1項;編寫教材十余本,其中主編教材3本,副主編教材7本;以第一作者在各級刊物上公開發(fā)布論文8篇篇;指導(dǎo)學(xué)生參加藍(lán)橋杯全國軟件設(shè)計大賽獲得了全國總決賽二、三等獎。? 單元 1 大數(shù)據(jù)概述........................... 11.1 大數(shù)據(jù)的產(chǎn)生 .........................................11.1.1 大數(shù)據(jù)產(chǎn)生的原因 ................................11.1.2 大數(shù)據(jù)的發(fā)展歷程 ................................21.2 大數(shù)據(jù)的概念 .........................................31.2.1 大數(shù)據(jù)的定義 ........................................31.2.2 大數(shù)據(jù)的特征 ........................................31.2.3 大數(shù)據(jù)的構(gòu)成 ........................................41.2.4 大數(shù)據(jù)的意義 ........................................41.3 大數(shù)據(jù)的基本處理流程 .........................51.4 大數(shù)據(jù)技術(shù) .............................................61.4.1 大數(shù)據(jù)的技術(shù)層面 ................................61.4.2 大數(shù)據(jù)的計算模式 ................................71.4.3 大數(shù)據(jù)的技術(shù)路線 ................................71.4.4 大數(shù)據(jù)技術(shù)的應(yīng)用 ................................71.5 大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關(guān)系 .........81.5.1 云計算 ....................................................81.5.2 物聯(lián)網(wǎng) ....................................................91.5.3 大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關(guān)系 ......10 習(xí)題 .............................................................10 單元 2 Hadoop概述.......................112.1 Hadoop簡介 ..........................................112.1.1 Hadoop的起源及發(fā)展歷史 ..................112.1.2 Hadoop的設(shè)計思想和特性 ..................132.1.3 Hadoop的體系結(jié)構(gòu) ..............................132.1.4 Hadoop的生態(tài)系統(tǒng) ..............................142.1.5 Hadoop的發(fā)行版本 ..............................162.1.6 Apache Hadoop的下載 ........................172.2 Hadoop系列實驗前的準(zhǔn)備工作 ..........182.2.1 計算機軟硬件基本配置要求 .............182.2.2 大數(shù)據(jù)實驗軟件包介紹 ......................182.2.3 檢查實驗機是否支持虛擬化 ..............202.2.4 檢查在BIOS中是否已打開VT-x 功能 ......................................................21習(xí)題 .............................................................22單元 3 VMware和CentOS的安裝....23 3.1 安裝VMware Workstation ....................233.1.1 VMware虛擬機簡介 ............................233.1.2 安裝VMware虛擬機 ............................243.2 創(chuàng)建虛擬機Master ...............................273.3 安裝CentOS ..........................................323.4 克隆虛擬機Slave..................................343.5 上傳Hadoop實驗軟件包到Linux 系統(tǒng)中 ...................................................36 3.6 常用的Linux操作系統(tǒng)命令和文本編輯器vi ................................................39 3.6.1 Linux操作系統(tǒng)常用命令 .....................393.6.2 文本編輯器vi .......................................41習(xí)題 .............................................................43單元 4 Hadoop集群的部署與管理......44 4.1 Hadoop的運行模式 ..............................444.1.1 計算機集群 ..........................................444.1.2 Hadoop的運行模式 ..............................464.2 配置Linux系統(tǒng)......................................484.2.1 說明 ......................................................484.2.2 配置時鐘同步 ......................................494.2.3 配置主機名 ..........................................504.2.4 配置網(wǎng)絡(luò)環(huán)境 ......................................514.2.5 關(guān)閉防火墻 ..........................................554.2.6 配置 hosts 列表 ....................................564.2.7 安裝JDK ...............................................584.2.8 配置免密鑰登錄 ..................................604.3 配置Hadoop ..........................................634.3.1 解壓Hadoop安裝包 ..............................644.3.2 在Master節(jié)點修改Hadoop配置文件 .....................................................64 4.3.3 在Master節(jié)點上配置Hadoop的系統(tǒng)環(huán)境變量 ......................................71 4.3.4 將已經(jīng)配置好的Hadoop復(fù)制到其他節(jié)點上 ..........................................71 4.3.5 創(chuàng)建數(shù)據(jù)目錄 ......................................714.4 啟動 Hadoop 集群 ................................714.4.1 格式化文件系統(tǒng) ..................................714.4.2 啟動Hadoop集群 ..................................724.5 測試Hadoop集群 ..................................734.6 監(jiān)控Hadoop集群 ..................................744.6.1 監(jiān)控HDFS ............................................744.6.2 監(jiān)控Yarn ...............................................774.7 停止Hadoop集群 ..................................794.8 動態(tài)管理節(jié)點 .......................................794.8.1 增加節(jié)點 ..............................................804.8.2 刪除節(jié)點 ..............................................844.9 Hadoop的命令 ......................................86習(xí)題 ............................................................87單元 5 Hadoop分布式文件系統(tǒng) HDFS.............................88 5.1 HDFS概述 .............................................885.1.1 HDFS簡介 ............................................885.1.2 HDFS的體系結(jié)構(gòu) ................................895.1.3 HDFS的概念 ........................................905.1.4 HDFS的存儲原理 ................................935.1.5 HDFS文件的讀寫過程 ........................945.1.6 HDFS高可用性 ....................................955.2 用命令方式實現(xiàn)HDFS常用操作.........965.2.1 HDFS的基本命令 ................................965.2.2 HDFS文件系統(tǒng)的操作 ......................1025.3 安裝與配置Eclipse集成開發(fā)環(huán)境 .....104 5.3.1 Eclipse開發(fā)環(huán)境介紹.........................1045.3.2 Eclipse的安裝和配置.........................1055.4 編程實現(xiàn)HDFS常用操作...................1125.4.1 HDFS Java API 簡介 ...........................1125.4.2 HDFS Java API 的一般用法 ...............1135.4.3 HDFS Java API 的編程實踐 ...............113習(xí)題 ...........................................................116單元 6 MapReduce....................1186.1 MapReduce概述 ..................................1186.1.1 MapReduce的設(shè)計思想.....................1196.1.2 MapReduce的體系結(jié)構(gòu).....................1196.1.3 MapReduce的工作過程.....................1206.1.4 MapReduce的工作過程示例 詞頻統(tǒng)計 ............................................123 6.2 YARN 概述..........................................1266.2.1 YARN 的設(shè)計思想 .............................1266.2.2 YARN 的體系結(jié)構(gòu) .............................1266.2.3 YARN 的工作流程 .............................1286.3 在集群中運行MapReduce任務(wù) ..........1296.3.1 Hadoop官方示例包中的測試程序 ....129 6.3.2 提交MapReduce任務(wù)給集群運行.....129 6.4 在Eclipse中配置MapReduce環(huán)境 ......132 6.5 編寫MapReduce詞頻統(tǒng)計程序 ..........1346.5.1 MapReduce編程步驟.........................1346.5.2 編寫MapReduce詞頻統(tǒng)計程序.........1346.5.3 打包提交代碼運行 ............................136習(xí)題 ...........................................................137單元 7 分布式協(xié)調(diào)服務(wù)器ZooKeeper.....................1407.1 ZooKeeper概述 ...................................1407.1.1 ZooKeeper簡介.................................1407.1.2 ZooKeeper的體系結(jié)構(gòu)......................1417.1.3 ZooKeeper的數(shù)據(jù)模型......................143 7.1.4 ZooKeeper的工作原理......................144 7.2 ZooKeeper集群安裝部署 ...................145 7.2.1 在Master節(jié)點上安裝ZooKeeper ......145 7.2.2 配置ZooKeeper屬性文件..................146 7.2.3 將Master節(jié)點上的ZooKeeper 安裝文件復(fù)制到Slave節(jié)點和Slave2節(jié)點上 .................................147 7.2.4 啟動 ZooKeeper 集群........................147 7.2.5 測試ZooKeeper集群..........................148 7.3 ZooKeeper的簡單操作 .......................149 7.3.1 使用zkServer.sh 腳本進(jìn)行的操作 ......149 7.3.2 ZooKeeper的常用Shell命令 ..............151 習(xí)題 ...........................................................151 單元 8 分布式數(shù)據(jù)庫HBase..........1528.1 HBase概述 ..........................................152 8.1.1 HBase簡介 ..........................................152 8.1.2 HBase的數(shù)據(jù)模型 ..............................153 8.1.3 HBase的物理存儲 ..............................156 8.1.4 HBase的體系結(jié)構(gòu) ..............................157 8.1.5 HBase的工作原理 ..............................159 8.2 HBase集群的安裝部署 ......................160 8.2.1 在Master節(jié)點上安裝HBase...............160 8.2.2 在Master節(jié)點上配置HBase...............161 8.2.3 將HBase安裝文件復(fù)制到Slave 和Slave2節(jié)點上 .................................162 8.2.4 啟動HBase ..........................................163 8.2.5 驗證HBase ..........................................163 8.2.6 停止HBase ..........................................164 8.3 常用的HBase Shell命令.....................164 習(xí)題 ..........................................................170 單元 9 數(shù)據(jù)倉庫Hive....................1719.1 Hive概述 .............................................171 9.1.1 數(shù)據(jù)倉庫簡介 ....................................171 9.1.2 Hive簡介.............................................172 9.1.3 Hive的體系結(jié)構(gòu).................................173 9.1.4 Hive的工作原理.................................174 9.1.5 Hive的數(shù)據(jù)類型與存儲格式.............174 9.1.6 Hive的數(shù)據(jù)模型.................................176 9.2 Hive的安裝部署 ................................. 176 9.2.1 安裝Hive ............................................177 9.2.2 安裝配置 MySQL ..............................177 9.2.3 配置Hive.............................................182 9.2.4 啟動Hive安裝.....................................183 9.3 Hive Shell操作 .................................... 183 9.4 Hive數(shù)據(jù)導(dǎo)入的實例 ......................... 186 習(xí)題 .......................................................... 190 單元 10 Sqoop的安裝和使用...........19110.1 Sqoop概述 ......................................... 191 10.1.1 Sqoop簡介 ........................................191 10.1.2 Sqoop的工作原理 ............................192 10.2 Sqoop的安裝、配置和運行 ............. 194 10.2.1 安裝Sqoop ........................................194 10.2.2 配置MySQL連接器 .........................195 10.2.3 配置環(huán)境變量 ..................................195 10.2.4 啟動并驗證 Sqoop ...........................196 10.3 Sqoop的應(yīng)用 ..................................... 198 10.3.1 從MySQL數(shù)據(jù)庫導(dǎo)入數(shù)據(jù)到HDFS中 ........................................198 10.3.2 從Hive或HDFS中導(dǎo)出數(shù)據(jù)到MySQL數(shù)據(jù)庫 .............................202 10.3.3 腳本打包 ..........................................203 習(xí)題 ........................................................... 204 單元 11 Flume.............................20511.1 Flume概述 ......................................... 205 11.1.1 Flume簡介 ........................................205 11.1.2 Flume的工作原理 ............................206 11.2 Flume的安裝配置 ............................. 210 11.2.1 下載安裝包并解壓 ..........................210 11.2.2 配置環(huán)境變量 .................................. 211 11.2.3 配置flume-env.sh 文件 ......................21111.2.4 驗證flume .........................................21111.3 Flume的常用操作命令 .....................21211.4 Flume的應(yīng)用 .....................................21311.4.1 Flume的配置和運行 ........................21311.4.2 Flume的簡單實例 ............................215習(xí)題 ...........................................................216單元 12 流計算框架Storm...................21712.1 Storm概述 .........................................21712.1.1 Storm簡介 ........................................21712.1.2 Storm的工作原理 ............................21812.1.3 Storm的數(shù)據(jù)模型 ............................22012.2 Storm集群的搭建 .............................22112.2.1 在Master節(jié)點上安裝Storm .............22112.2.2 將Storm安裝文件復(fù)制到Slave、Slave2、Slave3節(jié)點 ............222 12.2.3 啟動Storm集群 ................................22312.2.4 測試Storm集群 ................................22312.3 向Storm集群提交任務(wù) .....................224習(xí)題 ...........................................................225單元 13 Kafka.............................22613.1 Kafka概述 .........................................22613.1.1 Kafka簡介.........................................22613.1.2 Kafka的體系結(jié)構(gòu).............................22713.1.3 Kafka的工作原理.............................22813.1.4 Kafka使用場景.................................22913.2 安裝配置和使用Kafka .....................22913.2.1 安裝Kafka.........................................22913.2.2 配置Kafka.........................................23013.2.3 啟動并使用Kafka.............................230習(xí)題 ...........................................................233單元 14 基于云虛擬實訓(xùn)平臺的學(xué)情分析系統(tǒng)...........................23414.1 項目簡介 ...........................................23414.1.1 唯眾云虛擬實訓(xùn)平臺介紹 ..............23514.1.2 學(xué)情分析系統(tǒng)需求分析 ..................23514.1.3 學(xué)情分析系統(tǒng)數(shù)據(jù)庫設(shè)計 ..............24014.2 獲取云虛擬平臺日志內(nèi)容 ...............24314.2.1 使用爬蟲獲取數(shù)據(jù) .........................24314.2.2 將抓取的數(shù)據(jù)上傳到HDFS ............25314.2.3 使用MapReduce對數(shù)據(jù)進(jìn)行清洗...256 14.3 創(chuàng)建封裝數(shù)據(jù)的javaBean ................25814.3.1 LoginLogBean.java (登錄日志) ..................................258 14.3.2 OperationLogBean.java (操作日志信息) ..........................260 14.4 數(shù)據(jù)清洗 ...........................................26414.4.1 數(shù)據(jù)標(biāo)記與封裝(LoginLogParse.java) ..................264 14.4.2 數(shù)據(jù)標(biāo)記與封裝(OperationLogParse.java)............265 14.4.3 數(shù)據(jù)清洗與輸出登錄日志(LoginLogProcess.java) ..............265 14.4.4 數(shù)據(jù)清洗與輸出操作日志(OperationLogProcess.java) ........267 14.5 對結(jié)果進(jìn)行分析及可視化 ...............26814.5.1 ECharts介紹 .....................................26814.5.2 對清洗后的數(shù)據(jù)分析 ......................26914.5.3 使用ECharts展示 .............................273參考文獻(xiàn) ....................................................308
你還可能感興趣
我要評論
|