關于我們
書單推薦
新書推薦
|
大數(shù)據(jù)技術基礎
本書的知識架構是在培訓了多屆學員的基礎上總結整理得來的,已經(jīng)經(jīng)過了實踐的考驗,證實了其科學性;本書當中的案例都為企業(yè)實際開發(fā)的案例,通過學習這些大量的實際案例,幫助學生在進入企業(yè)后可以很快融入大數(shù)據(jù)工作崗位。本書包括大數(shù)據(jù)概論、初識Hadoop、認識HDFS、HDFS的運行機制、訪問HDFS、HadoopI/O詳解、認識MapReduce編程模型、MapReduce應用編程開發(fā)、MapReduce的工作機制與YARN平臺、MapReduce高級開發(fā)、MapReduce實例共11章內(nèi)容。本書既可作為高等院校學習大數(shù)據(jù)技術的教材,亦可作為廣大大數(shù)據(jù)技術學習者的入門用書。
本書針對初學者的知識體系,適當簡化大數(shù)據(jù)學習的難度,使得學習更加容易上手;知識架構是在培訓了多屆學員的基礎上總結整理得來的,已經(jīng)經(jīng)歷了實踐的考驗,證實了其的科學性;本書凝聚了10余位技術大牛的研發(fā)和授課經(jīng)驗,教學資料完整;書中的案例都為企業(yè)實際開發(fā)的案例,通過學習這些大量的實際案例,使得學習者在進入企業(yè)后可以快速融入大數(shù)據(jù)技術相關工作崗位。
為什么要寫這本書
近年來,大數(shù)據(jù)(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關的技術發(fā)展與創(chuàng)新。它已經(jīng)上過《紐約時報》、《華爾街日報》的專欄封面,進入美國白宮官網(wǎng)的新聞,現(xiàn)身在國內(nèi)一些互聯(lián)網(wǎng)主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。最早提出“大數(shù)據(jù)”時代到來的是全球知名咨詢公司麥肯錫。麥肯錫稱: “數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來!薄按髷(shù)據(jù)”在物理學、生物學、環(huán)境生態(tài)學等領域以及軍事、金融、通信等行業(yè)存在已有時日,卻因為近年來互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關注。數(shù)據(jù)正在迅速膨脹并變大,它決定著企業(yè)的未來發(fā)展,雖然很多企業(yè)可能還沒有意識到數(shù)據(jù)爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多地意識到數(shù)據(jù)對企業(yè)的重要性。 在如今的社會,大數(shù)據(jù)的應用越來越彰顯它的優(yōu)勢,它占領的領域也越來越大,如電子商務、O2O、物流配送等,各種利用大數(shù)據(jù)進行發(fā)展的領域正在協(xié)助企業(yè)不斷地發(fā)展新業(yè)務和創(chuàng)新運營模式。有了大數(shù)據(jù)這個概念,對于消費者行為的判斷,產(chǎn)品銷售量的預測,精確的營銷范圍以及存貨的補給已經(jīng)得到全面的改善與優(yōu)化。然而,這些數(shù)據(jù)的規(guī)模是如此龐大,以至于不能用G或T來衡量。 為了解決這些數(shù)據(jù)的存儲和相關計算問題,就必須構建一個強大且穩(wěn)定的分布式集群系統(tǒng)作為搜索引擎的基礎架構支撐平臺,但是對于大多數(shù)互聯(lián)網(wǎng)公司而言,研發(fā)這樣一個高效性能系統(tǒng)往往要支付高昂的費用。經(jīng)過多年的發(fā)展,如今已形成了以Hadoop為核心的大數(shù)據(jù)生態(tài)系統(tǒng),開創(chuàng)了通用海量數(shù)據(jù)處理基礎架構平臺的先河。Hadoop是一個優(yōu)秀的分布式計算系統(tǒng),利用通用的硬件就可以構建一個強大、穩(wěn)定、簡單并且高效的分布式集群計算系統(tǒng),完全可以滿足互聯(lián)網(wǎng)公司基礎架構平臺的需求,付出相對低廉的代價就可以輕松處理超大規(guī)模的數(shù)據(jù)。因此,使用Hadoop的公司越來越多,具有豐富工作經(jīng)驗的Hadoop人才也就越來越供不應求,從而學習和使用Hadoop的愛好者和開發(fā)者也越來越多,編寫這本書也正是為了幫助更多的人學習并掌握Hadoop技術,從而推動Hadoop技術在中國的推廣,進而推動中國信息產(chǎn)業(yè)的發(fā)展。 讀者對象 本書適合以下讀者閱讀: 。1) 大數(shù)據(jù)技術的學習者和愛好者; (2) 有Java基礎的開發(fā)者; 。3) Hadoop技術開發(fā)者;大數(shù)據(jù) 技術基礎 前言 。4) Hadoop集群運維開發(fā)者; 。5) 分布式系統(tǒng)的相關研發(fā)人員。 如何閱讀本書 本書分為三個部分。 第一部分為簡介。簡介部分為第1章,主要介紹了大數(shù)據(jù)的時代背景,從大數(shù)據(jù)來源到大數(shù)據(jù)的價值和影響,以及對應用場景和發(fā)展前景的介紹,幫助用戶明白什么是大數(shù)據(jù),大數(shù)據(jù)是用來干什么的,以及大數(shù)據(jù)的發(fā)展前景是怎樣的。大數(shù)據(jù)的基本概念,首先明白什么是大數(shù)據(jù),大數(shù)據(jù)中數(shù)據(jù)結構的復雜度,重點明白大數(shù)據(jù)的四個核心特征,接著了解大數(shù)據(jù)所使用的技術,最后介紹了一些大數(shù)據(jù)的應用實例,幫助大家更好地理解大數(shù)據(jù)、大數(shù)據(jù)系統(tǒng),理解其核心設計目標,在系統(tǒng)設計目標的實現(xiàn)過程中,系統(tǒng)還需遵循一定的設計原則。 第二部分為Hadoop技術的講解,包括第2章到第9章。從認識Hadoop開始到正式介紹Hadoop的基本應用,通過HDFS分布式文件系統(tǒng)和MapReduce并行計算模型從理論到實現(xiàn)機制的角度對Hadoop計算進行講解。講述了HDFS的特性和目標、核心設計、體系結構以及HDFS中數(shù)據(jù)流的讀寫、HA機制和Federation機制,同時重點介紹了HDFS的命令行接口和Java接口。接著介紹了Hadoop I/O,講述了數(shù)據(jù)的完整性、文件壓縮、問價序列化和Hadoop文件的數(shù)據(jù)結構。最后是對MapReduce的講解,由淺入深,講述了MapReduce的編程模型,MapReduce應用編程開發(fā),包括MapReduce的類型格式,Java API解析,還重點講述了MapReduce的工作機制與YARN平臺,包括MapReduce作業(yè)運行機制的剖析、shuffle和排序、任務的執(zhí)行、作業(yè)調度、YARN平臺的簡介和架構。 第三部分為實戰(zhàn)部分,包括第10章和第11章。首先是從幾個具體的小實例講解了簡單高效的MapReduce編程方式。然后通過最后的MapReduce編程實例,帶我們進入大數(shù)據(jù)實戰(zhàn)項目,幫助學習者更深入地掌握Hadoop技術。 勘誤和支持 除本書編委會以外,參加本書編寫的工作人員有: 毛妍、白高平、趙真。由于本書編寫者水平有限,書中難免會出現(xiàn)一些錯誤或者不準確的地方,懇請讀者批評指正,可以將書中遇到的錯誤和問題發(fā)郵件,希望您能提出更多寶貴的意見,期待您的真摯反饋。
中科普開(北京)科技有限公司成立于2010年,是國內(nèi)致力于IT新技術傳播、普及的領航者,專注于云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)技術的培訓及咨詢服務。
第1章大數(shù)據(jù)概論001
1.1大數(shù)據(jù)時代背景001 1.1.1大數(shù)據(jù)的數(shù)據(jù)源001 1.1.2大數(shù)據(jù)的價值和影響002 1.1.3大數(shù)據(jù)技術應用場景003 1.1.4大數(shù)據(jù)技術的發(fā)展前景004 1.2大數(shù)據(jù)基本概念005 1.2.1大數(shù)據(jù)定義005 1.2.2大數(shù)據(jù)結構類型007 1.2.3大數(shù)據(jù)核心特征007 1.2.4大數(shù)據(jù)技術008 1.2.5行業(yè)應用大數(shù)據(jù)實例010 1.3大數(shù)據(jù)系統(tǒng)011 1.3.1設計目標和原則011 1.3.2當前大數(shù)據(jù)系統(tǒng)012 1.4大數(shù)據(jù)與企業(yè)016 1.4.1大數(shù)據(jù)對企業(yè)的挑戰(zhàn)性016 1.4.2企業(yè)大數(shù)據(jù)的發(fā)展方向019 1.4.3企業(yè)大數(shù)據(jù)觀020 本章小結020 習題021 第2章初識Hadoop022 2.1Hadoop簡介022 2.1.1Hadoop概況022 2.1.2Hadoop的功能和作用023 2.1.3Hadoop的優(yōu)勢023 2.1.4Hadoop的發(fā)展史024 2.1.5Hadoop的應用前景025 2.2深入了解Hadoop025 2.2.1Hadoop的體系結構025 2.2.2Hadoop與分布式開發(fā)027 2.2.3Hadoop生態(tài)系統(tǒng)029 2.3Hadoop與其他系統(tǒng)030 2.3.1Hadoop與關系型數(shù)據(jù)庫管理系統(tǒng)030 2.3.2Hadoop與云計算032 2.4Hadoop應用案例032 2.4.1Hadoop在百度的應用032 2.4.2Hadoop在Yahoo!的應用033 2.4.3Hadoop在eBay的應用035 本章小結037 習題037 大數(shù)據(jù) 技術基礎 目錄 第3章認識HDFS039 3.1HDFS簡介039 3.2HDFS的特性和設計目標040 3.2.1HDFS的特性040 3.2.2HDFS的設計目標041 3.3HDFS的核心設計042 3.3.1數(shù)據(jù)塊042 3.3.2數(shù)據(jù)復制042 3.3.3數(shù)據(jù)副本的存放策略043 3.3.4機架感知045 3.3.5安全模式046 3.3.6負載均衡047 3.3.7心跳機制048 3.4HDFS的體系結構049 3.4.1Master/Slave架構049 3.4.2NameNode、SecondaryNameNode、DataNode050 本章小結055 習題055 第4章HDFS的運行機制056 4.1HDFS中數(shù)據(jù)流的讀寫056 4.1.1RPC實現(xiàn)流程056 4.1.2RPC實現(xiàn)模型057 4.1.3文件的讀取059 4.1.4文件的寫入060 4.1.5文件的一致模型061 4.2HDFS的HA機制062 4.2.1為什么有HA機制062 4.2.2HA集群和架構063 4.3HDFS的Federation機制064 4.3.1為什么引入Federation機制064 4.3.2Federation架構066 4.3.3多命名空間管理067 本章小結067 習題068 第5章訪問HDFS069 5.1命令行常用接口069 5.1.1HDFS操作體驗069 5.1.2HDFS常用命令071 5.2Java接口073 5.2.1從Hadoop URL中讀取數(shù)據(jù)074 5.2.2通過FileSystem API讀取數(shù)據(jù)075 5.2.3寫入數(shù)據(jù)076 5.2.4創(chuàng)建目錄078 5.2.5查詢文件系統(tǒng)078 5.2.6刪除數(shù)據(jù)081 5.3其他常用接口081 5.3.1Thrift081 5.3.2C語言082 5.3.3HTTP082 本章小結082 習題083 第6章Hadoop I/O詳解084 6.1數(shù)據(jù)完整性084 6.1.1HDFS的數(shù)據(jù)完整性084 6.1.2驗證數(shù)據(jù)完整性085 6.2文件壓縮086 6.2.1Hadoop支持的壓縮格式086 6.2.2壓縮解壓縮算法codec087 6.2.3壓縮和輸入分片091 6.3文件序列化092 6.3.1Writable接口093 6.3.2WritableComparable接口094 6.3.3Writable實現(xiàn)類095 6.3.4自定義Writable接口100 6.3.5序列化框架104 6.4Hadoop文件的數(shù)據(jù)結構104 6.4.1SequenceFile存儲104 6.4.2MapFile存儲108 本章小結111 習題111第7章識識MapReduce編程模型113 7.1MapReduce編程模型簡介113 7.1.1什么是MapReduce113 7.1.2MapReduce程序的設計方法114 7.1.3新舊MapReduce簡介115 7.1.4Hadoop MapReduce架構116 7.1.5MapReduce的優(yōu)缺點117 7.2WordCount編程實例118 7.2.1WordCount的設計思路118 7.2.2編寫WordCount代碼118 7.2.3運行程序119 7.2.4代碼講解120 7.3MapReduce的編程122 7.3.1配置開發(fā)環(huán)境122 7.3.2編寫Mapper類124 7.3.3編寫Reducer類125 7.3.4編寫main函數(shù)125 7.4MapReduce在集群上的運作127 7.4.1作業(yè)的打包和啟動127 7.4.2MapReduce的Web界面128 7.4.3獲取結果130 本章小結131 習題131 第8章MapReduce應用編程開發(fā)132 8.1MapReduce類型與格式132 8.1.1MapReduce的類型132 8.1.2輸入格式137 8.1.3輸出格式148 8.2Java API解析150 8.2.1作業(yè)配置與提交151 8.2.2InputFormat接口的設計與實現(xiàn)152 8.2.3OutputFormat接口的設計與實現(xiàn)157 8.2.4Mapper與Reducer解析159 本章小結163 習題163 第9MapReduce的工作機制與YARN平臺165 9.1YARN平臺簡介165 9.1.1YARN的誕生165 9.1.2YARN的作用166 9.2YARN的架構166 9.2.1ResourceManager167 9.2.2ApplicationMaster168 9.2.3NodeManager168 9.2.4資源模型169 9.2.5ResourceRequest和Container169 9.2.6Container規(guī)范170 9.3剖析MapReduce作業(yè)運行機制170 9.4基于YARN的運行機制剖析171 9.5Shuffle和排序175 9.5.1map端175 9.5.2reduce端176 9.6任務的執(zhí)行178 9.6.1任務執(zhí)行環(huán)境178 9.6.2推測執(zhí)行179 9.6.3關于OutputCommitters180 9.6.4任務JVM重用181 9.6.5跳過壞記錄182 9.7作業(yè)的調度182 9.7.1公平調度器183 9.7.2容量調度器183 9.8在YARN上運行MapReduce實例184 9.8.1運行Pi實例184 9.8.2使用Web GUI監(jiān)控實例185 本章小結189 習題190 第10章MapReduce高級開發(fā)191 10.1計數(shù)器191 10.1.1內(nèi)置計數(shù)器191 10.1.2自定義的Java計數(shù)器193 10.2數(shù)據(jù)去重194 10.2.1實例描述194 10.2.2設計思路194 10.2.3程序代碼194 10.3排序195 10.3.1實例描述196 10.3.2設計思路196 10.3.3程序代碼196 10.4二次排序197 10.4.1二次排序原理197 10.4.2二次排序的算法流程198 10.4.3代碼實現(xiàn)199 10.5平均值202 10.5.1實例描述202 10.5.2設計思路202 10.5.3程序代碼203 10.6Join聯(lián)接204 10.6.1Map端Join204 10.6.2Reduce端Join205 10.6.3Join實現(xiàn)表關聯(lián)205 10.7倒排索引209 10.7.1倒排索引的分析和設計209 10.7.2倒排索引完整源碼213 10.7.3運行代碼結果214 本章小結215 習題215 第11章MapReduce實例216 11.1搜索引擎日志處理216 11.1.1背景介紹216 11.1.2數(shù)據(jù)收集216 11.1.3數(shù)據(jù)結構216 11.1.4需求分析217 11.1.5MapReduce編碼實現(xiàn)217 11.2汽車銷售數(shù)據(jù)分析223 11.2.1背景介紹224 11.2.2數(shù)據(jù)收集224 11.2.3數(shù)據(jù)結構 224 11.2.4需求分析224 11.2.5MapReduce編碼實現(xiàn)225 11.3農(nóng)產(chǎn)品價格分析234 11.3.1背景介紹234 11.3.2數(shù)據(jù)收集235 11.3.3數(shù)據(jù)結構235 11.3.4需求分析236 11.3.5MapReduce編碼實現(xiàn)236 參考文獻248
第1章大數(shù)據(jù)概論
本章提要 在這個日新月異發(fā)展的社會中,人們發(fā)現(xiàn)未知領域的規(guī)律主要依賴抽樣數(shù)據(jù)、局部數(shù)據(jù)和片面數(shù)據(jù),甚至無法獲得真實數(shù)據(jù)時只能純粹依賴經(jīng)驗、理論、假設和價值觀去認識世界。因此,人們對世界的認識往往是表面的、膚淺的、簡單的、扭曲的或者是無知的。然而大數(shù)據(jù)時代的來臨使人類擁有更多的機會和條件在各個領域更深入地獲得和使用全面數(shù)據(jù)、完整數(shù)據(jù)和系統(tǒng)數(shù)據(jù),深入探索現(xiàn)實世界的規(guī)律。大數(shù)據(jù)的出現(xiàn)幫助商家了解用戶、鎖定資源、規(guī)劃生產(chǎn)、做好運營及開展服務。 本章主要從大數(shù)據(jù)時代背景、大數(shù)據(jù)基本概念、大數(shù)據(jù)系統(tǒng)以及大數(shù)據(jù)與企業(yè)等方面,讓讀者對大數(shù)據(jù)有初步的認識。 1.1大數(shù)據(jù)時代背景 中國龐大的人數(shù)和應用市場,其復雜性高并且充滿變化,從而成為世界上擁有最復雜的大數(shù)據(jù)的國家。解決這種由大規(guī)模數(shù)據(jù)引發(fā)的問題,探索以大數(shù)據(jù)為基礎的解決方案,是中國產(chǎn)業(yè)升級、效率提高的重要手段。因此,解決大數(shù)據(jù)這一問題不僅提高公司的競爭力,也能提高國家競爭力。 1.1.1大數(shù)據(jù)的數(shù)據(jù)源 近年來,隨著信息技術的發(fā)展,我國在各個領域產(chǎn)生了海量數(shù)據(jù),主要分布如下。 1. 以BAT為代表的互聯(lián)網(wǎng)公司 (1) 阿里巴巴: 目前保存的數(shù)據(jù)量為近百個拍字節(jié)(PB),90%以上是電商數(shù)據(jù)、交易數(shù)據(jù)、用戶瀏覽和點擊網(wǎng)頁數(shù)據(jù)、購物數(shù)據(jù)。 (2) 百度: 2013年的數(shù)據(jù)總量接近一千個拍字節(jié)(PB),主要來自中文網(wǎng)、百度推廣、百度日志、UGC,由于占有70%以上的搜索市場份額從而坐擁龐大的搜索數(shù)據(jù)。 (3) 騰訊: 存儲數(shù)據(jù)經(jīng)壓縮處理后總量在100PB左右,數(shù)據(jù)量月增10%,主要是大量社交、游戲等領域積累的文本、音頻、視頻和關系類數(shù)據(jù)。 大數(shù)據(jù) 技術基礎 00第1章 大數(shù)據(jù)概論 002. 電信、金融與保險、電力與石化系統(tǒng) (1) 電信: 包括用戶上網(wǎng)記錄、通話、信息、地理位置等。運營商擁有的數(shù)據(jù)量都在10PB以上,年度用戶數(shù)據(jù)增長數(shù)十拍字節(jié)(PB)。 (2) 金融與保險: 包括開戶信息數(shù)據(jù)、銀行網(wǎng)點和在線交易數(shù)據(jù)、自身運營的數(shù)據(jù)等。金融系統(tǒng)每年產(chǎn)生數(shù)據(jù)達數(shù)十拍字節(jié)(PB),保險系統(tǒng)數(shù)據(jù)量也接近拍字節(jié)(PB)級別。 (3) 電力與石化: 僅國家電網(wǎng)采集獲得的數(shù)據(jù)總量就達到10個拍字節(jié)(PB)級別,石化行業(yè)、智能水表等每年產(chǎn)生和保存下來的數(shù)據(jù)量也達到數(shù)十拍字節(jié)(PB)級別。 3. 公共安全、醫(yī)療、交通領域 (1) 公共安全: 在北京,就有50萬個監(jiān)控攝像頭,每天采集視頻數(shù)量約3PB,整個視頻監(jiān)控每年保存下來的數(shù)據(jù)在數(shù)百拍字節(jié)(PB)以上。 (2) 醫(yī)療衛(wèi)生: 據(jù)了解,整個醫(yī)療衛(wèi)生行業(yè)一年能夠保存下來的數(shù)據(jù)就可達到數(shù)百PB。 (3) 交通: 航班往返一次就能產(chǎn)生太字節(jié)(TB)級別的海量數(shù)據(jù);列車、水陸路運輸產(chǎn)生的各種視頻、文本類數(shù)據(jù),每年保存下來的也達到數(shù)十拍字節(jié)(PB)。 4. 氣象與地理、政務與教育等領域 (1) 氣象與地理: 中國幅頁遼闊,氣象局保存的數(shù)據(jù)為4~5PB,每年約增數(shù)百個太字節(jié)(TB),各種地圖和地理位置信息每年約增數(shù)十太字節(jié)(PB)。 (2) 政務與教育: 北京市政務數(shù)據(jù)資源網(wǎng)涵蓋旅游、教育、交通、醫(yī)療等門類,一年上線公布400余個數(shù)據(jù)包。政務數(shù)據(jù)多為結構化數(shù)據(jù)。 5. 其他行業(yè) 線下商業(yè)銷售、農(nóng)林牧漁業(yè)、線下餐飲、食品、科研、物流運輸?shù)刃袠I(yè)數(shù)據(jù)量還處于積累期,整個體積都不算大,多則達到拍字節(jié)(PB)級別,少則幾百太字節(jié)(TB),甚至只有數(shù)十太字節(jié)(TB)級別,但增速很快。 1.1.2大數(shù)據(jù)的價值和影響 數(shù)量巨大、與微觀情境相結合的運行記錄信息的最終結果就是大數(shù)據(jù)。盡管運行記錄信息不是大數(shù)據(jù)的全部,但卻應該是以后大數(shù)據(jù)的主流。目前看得到的金融、電信、航空、電商、零售渠道等領域中的大數(shù)據(jù),多數(shù)也都是運行記錄信息。大數(shù)據(jù)具有采集過程價值未知、力爭全面、即時、系統(tǒng)性并發(fā)的記錄方式,以及主受體統(tǒng)一和大微觀的特征,這些特征決定了大數(shù)據(jù)的價值發(fā)揮。 大數(shù)據(jù)的應用很廣泛,解決了大量的日常問題。大數(shù)據(jù)是利害攸關的,它將重塑人們的生活、工作和思維方式,比其他劃時代創(chuàng)新引起的社會信息范圍和規(guī)模急劇擴大所帶來的影響更大。大數(shù)據(jù)需要人們重新討論決策、命運和正義的性質。人們的世界觀正受到大數(shù)據(jù)優(yōu)勢的挑戰(zhàn),擁有大數(shù)據(jù)不但意味著掌握過去,更意味著能夠預測未來。因此,大數(shù)據(jù)給人們帶來了巨大的價值和影響。 (1) 全面洞察客戶信息。全面分析來自渠道的反饋、社會傳媒等多源信息,讓每個客戶作為個體了解全景。 (2) 提升企業(yè)的資源管理: 利用實時數(shù)據(jù)實現(xiàn)預測性維護,并減少故障,推動產(chǎn)品和服務開發(fā)。 (3) 數(shù)據(jù)深度利用。梳理結構化、非結構化、海量歷史/實時、地理信息4類數(shù)據(jù)資源,以企業(yè)核心業(yè)務及應用為主線實現(xiàn)四類數(shù)據(jù)資源的關聯(lián)利用。 (4) 風險及時感知和控制。通過全面數(shù)據(jù)分析改進風險模型,結合交易流數(shù)據(jù)實時捕獲風險,及時有效地控制。 (5) 輔助智能決策。實時分析所有的運營數(shù)據(jù)和效果反饋,優(yōu)化運營流程。利用投資回報率最大程度減少信息技術成本。 (6) 更快和更大規(guī)模的產(chǎn)品創(chuàng)新。多源捕獲市場反饋,利用海量市場數(shù)據(jù)和研究數(shù)據(jù)來快速驅動創(chuàng)新。 1.1.3大數(shù)據(jù)技術應用場景 當前,大數(shù)據(jù)技術的應用涉及各個行業(yè)領域。 1. 大數(shù)據(jù)在金融行業(yè)的應用 近年來,隨著“互聯(lián)網(wǎng)金融”概念的興起,催生了一大批金融、類金融機構轉型或布局的服務需求,相關產(chǎn)業(yè)服務應運而生。而隨著互聯(lián)網(wǎng)金融向縱深發(fā)展,行業(yè)競爭日趨白熱化,金融、類金融機構在其中的短板日益凸顯。為了更好地獲得最佳商機,金融行業(yè)也步入了大數(shù)據(jù)時代。 華爾街某公司通過分析全球3.4億微博賬戶留言來判斷民眾情緒。人們高興的時候會買股票,而焦慮的時候會拋售股票,它通過判斷全世界高興的人多還是焦慮的人多來決定公司股票的買入還是賣出。 阿里公司根據(jù)在淘寶網(wǎng)上中小企業(yè)的交易狀況篩選出財務健康和誠信經(jīng)營的企業(yè),給他們提供貸款,并且不需要這些中小企業(yè)的擔保。目前阿里公司已放貸款上千億元,壞賬率僅為0.3%。 2. 大數(shù)據(jù)在政府的應用 為充分運用大數(shù)據(jù)的先進理念、技術和資源,加強對我國各地市場主體的服務和監(jiān)管,推進簡政放權和政府職能轉變,提高政府治理能力,我國一些省市運用大數(shù)據(jù)加強對市場主體服務和監(jiān)管實施方案已然出爐。 3. 大數(shù)據(jù)在醫(yī)療健康的應用 隨著醫(yī)療衛(wèi)生信息化建設進程的不斷加快,醫(yī)療數(shù)據(jù)的類型和規(guī)模也在以前所未有的速度迅猛增長,甚至產(chǎn)生了無法利用目前主流軟件工具的現(xiàn)象,這些醫(yī)療數(shù)據(jù)能幫助醫(yī)改在合理的時間內(nèi)達到擷取、管理信息并整合成為能夠幫助醫(yī)院進行更積極的經(jīng)營決策的有用信息。這些具有特殊性、復雜性的龐大的醫(yī)療大數(shù)據(jù),僅靠個人甚至個別機構來進行搜索,那基本是不可能完成的。 4. 大數(shù)據(jù)在宏觀經(jīng)濟管理領域的應用 IBM日本分公司建立了一個經(jīng)濟指標預測系統(tǒng),它從互聯(lián)網(wǎng)新聞中搜索出能影響制造業(yè)的480項經(jīng)濟數(shù)據(jù),再利用這些數(shù)據(jù)進行預測,準確度相當高。 印第安納大學學者利用Google提供的心情分析工具,根據(jù)用戶近千萬條短信、微博留言預測瓊斯工業(yè)指數(shù),準確率高達87%。 淘寶網(wǎng)建立了“淘寶CPI”,通過采集、編制淘寶網(wǎng)上390個類目的熱門商品價格來統(tǒng)計CPI,預測某個時間段的經(jīng)濟走勢比國家統(tǒng)計局的CPI還提前半個月。 5. 大數(shù)據(jù)在農(nóng)業(yè)領域的應用 由Google前雇員創(chuàng)辦Climate公司,從美國氣象局等數(shù)據(jù)庫中獲得幾十年的天氣數(shù)據(jù),各地的降雨、氣溫和土壤狀況及歷年農(nóng)作物產(chǎn)量做成緊湊的圖表,從而能夠預測美國任一農(nóng)場下一年的產(chǎn)量。農(nóng)場主可以去該公司咨詢明年種什么能賣出去、能賺錢,說錯了該公司負責賠償,賠償金額比保險公司還要高,但到目前為止還沒賠過。 通過對手機上的農(nóng)產(chǎn)品“移動支付”數(shù)據(jù)、“采購投入”數(shù)據(jù)和“補貼”數(shù)據(jù)分析,可準確預測農(nóng)產(chǎn)品生產(chǎn)趨勢,政府可依此決定出臺激勵實施和確定合適的作物存儲量,還可以為農(nóng)民提供服務。 6. 大數(shù)據(jù)在商業(yè)領域的應用 沃爾瑪基于每個月4500萬的網(wǎng)絡購物數(shù)據(jù),并結合社交網(wǎng)絡上有關產(chǎn)品的大眾評分,開發(fā)機器學習語義搜索引擎“北極星”,方便瀏覽,在線購物者因此增加10%~15%,銷售額增加十多億美元。 沃爾瑪通過手機定位,可以分析顧客在貨柜前停留時間的長短,從而判斷顧客對什么商品感興趣。 不僅僅是通過手機定位,實際上美國有的超市在購物推車上也安裝了位置傳感器,根據(jù)顧客在不同貨物前停留時間的長短來分析顧客可能的購物行為。 在淘寶網(wǎng)上買東西時,消費者會在阿里的廣告交易平臺上留下記錄,阿里不僅從交易記錄平臺把消費記錄拿來供自己使用,還會把消費記錄賣給其他商家。 7. 大數(shù)據(jù)在銀行的應用 在信用卡服務方面,銀行首先利用移動互聯(lián)網(wǎng)技術的定位功能確定商圈,目前已實際覆蓋全國161個商圈,累計服務千萬人次;其次利用用戶活動軌跡追蹤,確定高價值商業(yè)圈設計業(yè)務;再利用大數(shù)據(jù)進行客戶需求的體驗分析。既包括客戶的需要,也包括客戶的體驗,最終實現(xiàn)用戶體驗的LIKE曲線。 1.1.4大數(shù)據(jù)技術的發(fā)展前景 據(jù)預測,到2020年,全球需要存儲的數(shù)據(jù)量將達到35萬億吉字節(jié)(GB),是2009年數(shù)據(jù)存儲量的44倍。根據(jù)IDC的研究,2010年底全球的數(shù)據(jù)量已達到120萬拍字節(jié)(PB)。這些數(shù)據(jù)如果使用光盤存儲,摞起來可以從地球到月球一個來回。對于商業(yè)而言,這里孕育著巨大的市場機會,龐大的數(shù)據(jù)就是一個信息金礦。數(shù)據(jù)是企業(yè)的重要資產(chǎn)。因此,大數(shù)據(jù)將人們帶進了一個更有前景的領域。 在大數(shù)據(jù)時代,一批新的大數(shù)據(jù)技術正在涌現(xiàn),將改變?nèi)藗兎治鎏幚砗A繑?shù)據(jù)的方式,使人們更快、更經(jīng)濟地獲得所需的結果。傳統(tǒng)商業(yè)智能限于技術瓶頸很大程度上是對抽樣數(shù)據(jù)進行分析。大數(shù)據(jù)技術就是要打破傳統(tǒng)商業(yè)智能領域的局限。大數(shù)據(jù)技術不但能處理結構化數(shù)據(jù),還能分析和處理各種半結構化和非結構化數(shù)據(jù),甚至從某種程度上,更擅長處理非結構化數(shù)據(jù),例如Hadoop。而在現(xiàn)實生活中,這樣的數(shù)據(jù)更為普遍,增長得更為迅速。例如,社交媒體中的各種交互活動、購物網(wǎng)站用戶點擊行為、圖片、電子郵件等?梢哉f,正是此類數(shù)據(jù)的爆炸性催生了大數(shù)據(jù)相關技術的出現(xiàn)和完善,從而讓人們知道在一個資源有限的世界中應該提取哪些有價值的信息。 大數(shù)據(jù)技術的出現(xiàn)和完善還可以幫助健康保險公司不做體檢就能決定保險覆蓋面,并降低提醒病人服藥的成本。通過大數(shù)據(jù)的相關性,語言可以得到翻譯,汽車可以在預測的基礎上自行駕駛。人們之所以能做所有的這些事,新工具的使用只是一個很小的因素,比擁有更快的處理器、更多的存儲器,更智能的軟件和算法更重要的是,人們擁有了更多的數(shù)據(jù),繼而世界上更多的事物被數(shù)據(jù)化了。顯然,人類量化世界的雄心先于計算機革命,但是數(shù)字工具將數(shù)據(jù)化提升到了新的高度。不僅移動電話能夠跟蹤到呼叫的人和被呼叫人所在的位置,而且同樣的數(shù)據(jù)也能用于斷定來人是否生病了。 能置身于信息流中央并且能夠收集數(shù)據(jù)的公司通常會繁榮興旺。有效利用大數(shù)據(jù)需要專業(yè)技術和豐富的想象力,即一個能容納大數(shù)據(jù)的心態(tài),但價值的核心歸功于數(shù)據(jù)本身。有時,重要的資產(chǎn)并不僅僅是能清楚看到的信息,聰明的公司可以用它來改善現(xiàn)有的服務,或推出全新的服務。 大數(shù)據(jù)將成為理解和解決當今許多緊迫的全球問題所不可或缺的重要工具。在應對氣候變化問題時,需要對污染相關的數(shù)據(jù)進行分析得出最佳方案,從而明確努力方向,找出解決問題的方法。全球范圍內(nèi)遍布的大量傳感設備,包括智能手機內(nèi)部的傳感器,使人們能以更高的細節(jié)水平模擬環(huán)境。而世界貧困人口迫切需要提高醫(yī)療保健服務,降低醫(yī)療費用,這很大程度上可以靠自動化來實現(xiàn)。當下許多似乎需要人類判斷力才能進行的事情,其實可以完全交由計算機來做,比如癌細胞活檢、傳染病爆發(fā)前期的模式預測等。 大數(shù)據(jù)也被用于發(fā)展經(jīng)濟和理解如何預防沖突。基于手機動向數(shù)據(jù)顯示,非洲許多貧民窟地區(qū)經(jīng)濟活動十分活躍。大數(shù)據(jù)還揭示了最有可能引發(fā)種族關系緊張的社區(qū)以及解除難民危機的方式。只有當科技應用于生活的方方面面時,大數(shù)據(jù)的使用范圍才能進一步擴大。 大數(shù)據(jù)能幫助人們更好地進行已有的工作,并處理全新事務。在不久的將來,人們將在生活的方方面面使用到大數(shù)據(jù)。當大數(shù)據(jù)成為日常生活的一部分后,它將會極大地改變?nèi)藗儗ξ磥淼目捶ā?br /> 大數(shù)據(jù)時代造就了一個數(shù)據(jù)庫無所不在的世界,數(shù)據(jù)監(jiān)管部門面臨前所未有的壓力和責任。如何避免數(shù)據(jù)泄露對國家利益、公眾利益、個人隱私造成傷害?如何避免信息不對稱,對困難群體的利益構成傷害?在有效控制風險之前,也許還是讓“大數(shù)據(jù)”繼續(xù)待在籠子里更好一些。 大數(shù)據(jù)的經(jīng)濟價值已經(jīng)被人們認可,大數(shù)據(jù)的技術正逐漸成熟,一旦完成數(shù)據(jù)的整合和監(jiān)管,大數(shù)據(jù)爆發(fā)的時代即將到來。人們現(xiàn)在要做的,就是選好自己的方向,為迎接大數(shù)據(jù)的到來提前做好準備。 以未來的視角看,無論是政府、互聯(lián)網(wǎng)公司、IT企業(yè),還是行業(yè)用戶,只要以開放的心態(tài)、創(chuàng)新的勇氣擁抱“大數(shù)據(jù)”,大數(shù)據(jù)時代就一定有屬于中國的機會。 1.2大數(shù)據(jù)基本概念〖*2〗1.2.1大數(shù)據(jù)定義麥肯錫(美國首屈一指的咨詢公司)是研究大數(shù)據(jù)的先驅。在其報告《Big data: The next frontier for innovation,competition and productivity》中給出的大數(shù)據(jù)定義是: 大數(shù)據(jù)指的是大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集。但它同時強調,并不是說一定要超過特定太字節(jié)(TB)值的數(shù)據(jù)集才能算是大數(shù)據(jù)。 國際數(shù)據(jù)公司(IDC)從大數(shù)據(jù)的四個特征來定義,即海量的數(shù)據(jù)規(guī)模(Volume)、快速的數(shù)據(jù)流轉和動態(tài)的數(shù)據(jù)體系(Velocity)、多樣的數(shù)據(jù)類型(Variety)、巨大的數(shù)據(jù)價值(Value)。 亞馬遜公司(全球最大的電子商務公司)的大數(shù)據(jù)科學家John Rauser 給出了一個簡單的定義: 大數(shù)據(jù)是任何超過了一臺計算機處理能力的數(shù)據(jù)量。 維基百科中只有短短的一句話: “巨量資料(Big Data),或稱大數(shù)據(jù),指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊! 而在百度百科中是這樣定義的: “大數(shù)據(jù)(Big Data),是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合! 綜合上面的定義,可以得出以下幾點。 (1) 大數(shù)據(jù)并沒有明確的界限,它的標準是可變的。大數(shù)據(jù)在今天的不同行業(yè)中的范圍可以從幾十太字節(jié)(TB)到幾拍字節(jié)(PB),但在20年前1GB的數(shù)據(jù)已然是大數(shù)據(jù)了?梢,隨著計算機軟硬件技術的發(fā)展,符合大數(shù)據(jù)標準的數(shù)據(jù)集容量也會增長。 (2) 大數(shù)據(jù)不僅僅只是大,它還包含了數(shù)據(jù)集規(guī)模已經(jīng)超過了傳統(tǒng)數(shù)據(jù)庫軟件獲取、存儲、分析和管理能力的意思。 IDC報告顯示,計到2020年全球數(shù)據(jù)總量將超過40ZB(相當于4萬億GB),這一數(shù)據(jù)量是2011年的22倍。在過去幾年,全球的數(shù)據(jù)量以每年58%的速度增長,在未來這個速度會更快。如果按照現(xiàn)在存儲容量每年增長40%的速度計算,到2017年需要存儲的數(shù)據(jù)量甚至會大于存儲設備的總容量。如何利用大數(shù)據(jù)解決科研、醫(yī)療、能源、商業(yè)、政府管理、城市建設等領域的問題,是全世界面臨的問題。 舉幾個大家熟悉例子: 2014年11月19日,百度在京召開“百度云兩周年媒體溝通會”,正式宣布百度云總用戶數(shù)突破兩億,百度云數(shù)據(jù)存儲量達5EB,這些數(shù)據(jù)足以塞滿3.4億部16GB內(nèi)存的iPhone6,如果將這些手機首尾相連,可以在地球和月球之間搭建16條星際通道。 2014年3月7日,在阿里巴巴有史以來最大型對外開放的數(shù)據(jù)峰會“2014西湖品學大數(shù)據(jù)峰會”上,阿里巴巴大數(shù)據(jù)負責人披露了阿里巴巴目前的數(shù)據(jù)儲存情況。目前在阿里巴巴數(shù)據(jù)平臺事業(yè)部的服務器上,攢下了超過100PB已處理過的數(shù)據(jù),等于104857600GB,相當于4萬個西雅圖中央圖書館,580億本藏書。僅淘寶和天貓兩個子公司每日新增的數(shù)據(jù)量,就足以讓一個人連續(xù)不斷看上28年的電影。而如果將一個人作為服務器,則此人處理的數(shù)據(jù)量相當于每秒鐘看上837集的《來自星星的你》。 在2013年的數(shù)據(jù)大會上,騰訊公司數(shù)據(jù)平臺總經(jīng)理助理蔣杰透露,騰訊QQ目前擁有8億用戶、4億移動用戶,在數(shù)據(jù)倉庫存儲的數(shù)據(jù)量單機群數(shù)量已達到4400臺,總存儲數(shù)據(jù)量經(jīng)壓縮處理后約100PB,并且這一數(shù)據(jù)還在日增200~300TB、月增加率為10%的速度增長。 1993 年,《紐約客》刊登了一幅漫畫,標題是“互聯(lián)網(wǎng)上,沒有人知道你是一條狗”。據(jù)說作者彼得·施泰納因為此漫畫的重印而賺取了超過5 萬美元。當時關注互聯(lián)網(wǎng)社會學的一些專家,甚至擔憂“計算機異性扮裝”而引發(fā)的社會問題。 20多年后,互聯(lián)網(wǎng)發(fā)生了巨大的變化,移動互聯(lián)、社交網(wǎng)絡、電子商務大大拓展了互聯(lián)網(wǎng)的疆界和應用領域。人們在享受便利的同時,也無償貢獻了自己的“行蹤”,F(xiàn)在互聯(lián)網(wǎng)不但知道對面是一條狗,還知道這條狗喜歡什么食物、幾點出去遛彎、幾點回窩睡覺。人們不得不接受這個現(xiàn)實,每個人在互聯(lián)網(wǎng)進入到大數(shù)據(jù)時代都將是透明存在的。 1.2.2大數(shù)據(jù)結構類型 當今企業(yè)存儲的數(shù)據(jù)不僅僅是內(nèi)容多,而且結構已發(fā)生了極大改變,不再僅僅是以二維表的規(guī)范結構存儲。大量的數(shù)據(jù)來自不是結構化的數(shù)據(jù)類型(半結構化數(shù)據(jù)、準結構化數(shù)據(jù)或非結構化數(shù)據(jù)),如辦公文檔、文本、圖片、XML、 HTML、各類報表、圖片、音頻和視頻等,并且這些數(shù)據(jù)在企業(yè)的所有數(shù)據(jù)中是大量且增長迅速的。企業(yè)80%的數(shù)據(jù)來自不是結構化的數(shù)據(jù)類型,結構化數(shù)據(jù)僅有20%。全球結構化數(shù)據(jù)增長速度約為32%,而不是結構化的數(shù)據(jù)類型增速高達63%。預計今年不是結構化的數(shù)據(jù)類型占有比例將達到互聯(lián)網(wǎng)整個數(shù)據(jù)量的75%以上。 (1) 結構化數(shù)據(jù): 包括預定義的數(shù)據(jù)類型、格式和結構的數(shù)據(jù)。例如,關系型數(shù)據(jù)庫中的數(shù)據(jù)。 (2) 半結構化數(shù)據(jù): 具有可識別的模式并可以解析的文本數(shù)據(jù)文件。例如,自描述和具有定義模式的XML數(shù)據(jù)文件。 (3) 準結構化數(shù)據(jù): 具有不規(guī)則數(shù)據(jù)格式的文本數(shù)據(jù),使用工具可以使之格式化。例如,包含不一致的數(shù)據(jù)值和格式化的網(wǎng)站點擊數(shù)據(jù),可參考http://www.zkpk.org/。 (4) 非結構化數(shù)據(jù): 沒有固定結構的數(shù)據(jù),通常保存為不同類型的文件。例如,文本文檔、圖片、音頻和視頻。 1.2.3大數(shù)據(jù)核心特征 業(yè)界通常用4個V,即Volume(數(shù)據(jù)量大)、Variety(類型繁多)、Value(價值密度低)、Velocity(速度快,時效高)來概括大數(shù)據(jù)的特征。 ……
你還可能感興趣
我要評論
|