本書(shū)系統(tǒng)闡述了Hadoop大數(shù)據(jù)技術(shù)應(yīng)用實(shí)踐的原理、方法和應(yīng)用相關(guān)知識(shí),同時(shí)給出了每一章內(nèi)容對(duì)應(yīng)的實(shí)現(xiàn)指令或源程序。全書(shū)共九章內(nèi)容。內(nèi)容由淺入深,分為基礎(chǔ)篇及提高篇兩部分,其中第1章到第4章為基礎(chǔ)篇,內(nèi)容涵蓋Hadoop初識(shí)簡(jiǎn)介、Hadoop基礎(chǔ)環(huán)境搭建、分布式存儲(chǔ)HDFS介紹以及MapReduce編程模型等知識(shí),提高篇包括Hadoop數(shù)據(jù)倉(cāng)庫(kù)Hive、Hadoop數(shù)據(jù)庫(kù)Hbase、Pig語(yǔ)言、Hadoop項(xiàng)目案例以及Mahout項(xiàng)目案例等較深入的知識(shí)。本書(shū)理論結(jié)合實(shí)際,每一個(gè)章節(jié)都包含有相關(guān)內(nèi)容的實(shí)踐部分,以便讀者在了解相關(guān)知識(shí)后,能及時(shí)進(jìn)行項(xiàng)目的實(shí)踐,有助于提高讀者動(dòng)手實(shí)踐的能力。每章提供適量習(xí)題,進(jìn)一步加深對(duì)內(nèi)容的理解。
前 言
大數(shù)據(jù)時(shí)代的到來(lái),改變了許多行業(yè)的人才需求模式,大數(shù)據(jù)方面的人才成為各信息產(chǎn)業(yè)尤其是IT行業(yè)的熱門人才。許多高等院校已經(jīng)新增大數(shù)據(jù)技術(shù)相關(guān)專業(yè),部分院校成立了大數(shù)據(jù)學(xué)院,標(biāo)志著進(jìn)行大數(shù)據(jù)技術(shù)人才培養(yǎng)已經(jīng)正式納入高等教育的培養(yǎng)需求;贖adoop架構(gòu)搭建大數(shù)據(jù)分析環(huán)境是培養(yǎng)大數(shù)據(jù)人才的基本要求,《Hadoop大數(shù)據(jù)技術(shù)應(yīng)用實(shí)踐》教材可作為大數(shù)據(jù)技術(shù)相關(guān)專業(yè)本科生及高職院校相關(guān)專業(yè)實(shí)踐類的教材,以為培養(yǎng)大數(shù)據(jù)技術(shù)相關(guān)人才打下堅(jiān)實(shí)的基礎(chǔ)。
培養(yǎng)技術(shù)型及實(shí)踐型人才是大數(shù)據(jù)時(shí)代教育部對(duì)大數(shù)據(jù)技術(shù)相關(guān)人才的基本要求,也是各信息產(chǎn)業(yè)對(duì)人才的基本需求。編寫(xiě)本書(shū)的目的就是要讓大數(shù)據(jù)技術(shù)相關(guān)專業(yè)學(xué)生通過(guò)本課程的學(xué)習(xí),了解大數(shù)據(jù)技術(shù)的基礎(chǔ)知識(shí),掌握基于Hadoop環(huán)境搭建大數(shù)據(jù)分析架構(gòu)的基本流程及實(shí)現(xiàn)過(guò)程,提高學(xué)習(xí)本課程的興趣,培養(yǎng)解決實(shí)際問(wèn)題的能力。
本書(shū)最大的特色就是實(shí)踐性較強(qiáng),在闡述大數(shù)據(jù)技術(shù)相關(guān)基礎(chǔ)知識(shí)的同時(shí),輔以大量實(shí)踐內(nèi)容及項(xiàng)目實(shí)例,培養(yǎng)了學(xué)生的學(xué)習(xí)興趣,可極大提高學(xué)生的動(dòng)手能力?朔嗽S多教材注重理論缺少實(shí)踐內(nèi)容的弊端。學(xué)生們可在課后,自己進(jìn)一步動(dòng)手實(shí)踐,提高了學(xué)生的學(xué)習(xí)效率。
本書(shū)主要以大數(shù)據(jù)技術(shù)及計(jì)算機(jī)相關(guān)專業(yè)的本科生及高職院校學(xué)生為讀者對(duì)象,注重大數(shù)據(jù)技術(shù)相關(guān)基礎(chǔ)知識(shí),尤其是實(shí)踐環(huán)節(jié)的描述,避免了繁瑣的理論知識(shí)介紹。全書(shū)共包括9章,第1章是Hadoop初識(shí)簡(jiǎn)介,第2章是Hadoop相關(guān)開(kāi)源項(xiàng)目及偽分布式環(huán)境安裝,第3章是分布式存儲(chǔ)HDFS,第4章是MapReduce編程模型,第5章是Hadoop數(shù)據(jù)倉(cāng)庫(kù)Hive,第6章是Hadoop數(shù)據(jù)庫(kù)HBase,第7章是Pig語(yǔ)言,第8章是Hadoop項(xiàng)目案例,第9章是Mahout項(xiàng)目案例。附錄部分是本書(shū)中出現(xiàn)過(guò)的專業(yè)名詞縮寫(xiě)、全拼及中文解釋,按照英文字母順序排列,供大家學(xué)習(xí)時(shí)參考。
第1章到第4章屬于Hadoop基礎(chǔ)知識(shí)部分,在搭建Hadoop架構(gòu)時(shí)是必備的知識(shí),第5章到第9章是提高部分,實(shí)際中可根據(jù)應(yīng)用需要選擇學(xué)習(xí)。本書(shū)可以用作工科高校相關(guān)專業(yè)32-40學(xué)時(shí)的課程教程,其中第7章Pig語(yǔ)言及第9章Mahout項(xiàng)目案例可作為選學(xué)內(nèi)容。
本書(shū)由太原理工大學(xué)李鳳蓮教授、北京紅亞華宇科技有限公司鄭洪賓CEO任主編,由太原理工大學(xué)李彥民、遼寧大學(xué)馮勇、中國(guó)地質(zhì)大學(xué)吳湘寧、青海警官職業(yè)學(xué)院張志強(qiáng)、江蘇安全學(xué)院黃健任副主編,具體分工是:由馮勇、吳湘寧、張志強(qiáng)、黃健參與教材整體框架設(shè)計(jì),由北京紅亞華宇科技有限公司提供實(shí)訓(xùn)素材,由李鳳蓮教授完成教材第1,2,3,4,5,6,8及9章的編寫(xiě),太原理工大學(xué)李彥民完成教材第7章及附錄的編寫(xiě)。本書(shū)在編寫(xiě)及校對(duì)過(guò)程中,特別是項(xiàng)目實(shí)踐內(nèi)容驗(yàn)證過(guò)程中,得到了北京紅亞華宇科技有限公司以及太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院數(shù)字音視頻技術(shù)研究中心大數(shù)據(jù)課題組碩士生的大力幫助,在此表示衷心感謝。
由于編著者水平有限,書(shū)中難免存在錯(cuò)誤之處,敬請(qǐng)讀者批評(píng)指正。
太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院教師,博士,教授,碩士生導(dǎo)師。2012年以來(lái),主持和參與山西省自然科學(xué)基金、博士后基金(面上資助)項(xiàng)目、山西省科技重大專項(xiàng)、山西省科技攻關(guān)計(jì)劃項(xiàng)目以及校教改項(xiàng)目等多項(xiàng);獲批2017年教育部產(chǎn)學(xué)合作紅亞科技協(xié)同育人項(xiàng)目1項(xiàng);為2013年科技部重點(diǎn)領(lǐng)域創(chuàng)新團(tuán)隊(duì)核心成員; 2015年獲山西省科技進(jìn)步二等獎(jiǎng)一項(xiàng),2016年獲煤炭工業(yè)協(xié)會(huì)三等獎(jiǎng)一項(xiàng)。在Information Sciences等刊物發(fā)表SCI及EI收錄學(xué)術(shù)論文30余篇;獲批授權(quán)國(guó)家發(fā)明專利3項(xiàng);申請(qǐng)國(guó)家發(fā)明專利9項(xiàng),2016年以第一副主編參與編寫(xiě)“十二五”規(guī)劃教材《數(shù)字語(yǔ)音處理及Matlab仿真》一部,2013年副主編參與編寫(xiě)部委級(jí)規(guī)劃教材《電路分析基礎(chǔ)》1部;2010年參編兩本部委級(jí)規(guī)劃教材,指導(dǎo)研究生14名。
承擔(dān)課程:《電路分析基礎(chǔ)》、《可編程控制器原理》、《現(xiàn)代信號(hào)處理理論與方法》、《大數(shù)據(jù)技術(shù)與應(yīng)用》