在互聯(lián)網(wǎng)+時代,數(shù)據(jù)是炙手可熱的重要資源,網(wǎng)絡使用基礎(chǔ)的提升,數(shù)據(jù)流量增大,用戶需求多樣化和多變對架構(gòu)設計提出嚴峻考驗,而Hadoop為快速響應用戶需求提供了重要技術(shù)支撐。作者Rajiv Tiwari從事數(shù)據(jù)研究近15年,在Hadoop應用方面有許多實戰(zhàn)經(jīng)驗,他通過實際案例幫助讀者學習如何借助Hadoop來處理巨大數(shù)據(jù)信息,對于開發(fā)者、分析師、架構(gòu)師、管理者等都具有很好的指導。
你將從本書中得到什么?
了解大數(shù)據(jù)和Hadoop基礎(chǔ),包括實際的金融使用案例。
了解基于Hadoop的金融項目的闡述和解決方案、大數(shù)據(jù)監(jiān)管,以及如何保持Hadoop的勢頭。
在Hadoop平臺上開發(fā)一系列從小規(guī)模到大規(guī)模的數(shù)據(jù)項目的解決方案。
了解如何從云上掌握大數(shù)據(jù)。
在當前的實際業(yè)務情況下,在企業(yè)級管理上擴大現(xiàn)有平臺。
數(shù)據(jù)正以驚人的速度增加,而公司要么疲于應付,要么急于利用這些數(shù)據(jù)進行分析。Hadoop是一個優(yōu)秀的開源框架,可以應付這些大數(shù)據(jù)問題。
在過去的幾年里,我一直在金融部門使用Hadoop,但在使用的過程中,一直沒有發(fā)現(xiàn)有關(guān)Hadoop在金融應用中的任何案例資源或書籍。我遇到的關(guān)于Hadoop、Hive或一些MapReduce模式的書籍大都是用各種各樣的方式統(tǒng)計單詞數(shù)量或分析Twitter信息。
我寫這本書旨在解釋Hadoop和其他相關(guān)產(chǎn)品在處理金融案例大數(shù)據(jù)中的基本應用。在書中,介紹了很多案例并提供了一個非常實用的方法。
這本書包含什么
第1章,大數(shù)據(jù)回顧。本章包含大數(shù)據(jù)概覽、前景和技術(shù)演變,也介紹了Hadoop架構(gòu)的基本知識、組成部分和分布式框架。如果你之前已經(jīng)了解Hadoop,這一章可以忽略。
第2章,金融服務中的大數(shù)據(jù)。本章將延伸到站在一個金融機構(gòu)的角度去看大數(shù)據(jù)。主要介紹大數(shù)據(jù)在金融部門的演進故事,在項目落地時的一些挑戰(zhàn),以及利用相關(guān)工具和技術(shù)處理金融案例的應用。
第3章,在云端使用Hadoop。本章包含大數(shù)據(jù)在云端使用的概覽,以及基于端到端數(shù)據(jù)處理的樣本投資組合風險模擬項目。
第4章,使用Hadoop進行數(shù)據(jù)遷移。本章討論了將歷史數(shù)據(jù)從傳統(tǒng)數(shù)據(jù)源遷到Hadoop上的幾種常用項目。
第5章,入門。本章包含了一個非常大的企業(yè)數(shù)據(jù)平臺的實施項目,以支持各種風險和監(jiān)管要求。
第6章,變得有經(jīng)驗。本章給出了實時分析的概覽和檢測欺詐交易的樣本項目。
第7章,深入擴展Hadoop的企業(yè)級應用。本章包含的主題擴展到Hadoop在公司中的使用,如企業(yè)數(shù)據(jù)湖、Lambda架構(gòu)和數(shù)據(jù)管理。還介紹了更多基本的財務案例與簡短的解決方案。
第8章,Hadoop的快速增長。本章討論了Hadoop分布式架構(gòu)的升級周期,并用最佳實踐和標準完成此書。
閱讀這本書你需要哪些基礎(chǔ)知識
因為Hadoop是一個數(shù)據(jù)處理和分析的技術(shù)框架,因此在數(shù)據(jù)庫、項目和分析工具上有一些經(jīng)驗對讀者會有幫助。
這本書是一個入門指南,包含了大量外部引用的大數(shù)據(jù)產(chǎn)品。因此,如果在任何時候需要深入了解Hadoop,我們鼓勵讀者參考書中提到的外部資源。
哪些人適合讀這本書
本書主要面向致力于使用Hadoop的金融部門工作人員,包含數(shù)據(jù)項目開發(fā)人員、分析師、架構(gòu)師和管理人員。
它也有助于來自其他行業(yè)最近轉(zhuǎn)換或想將業(yè)務領(lǐng)域轉(zhuǎn)向金融部門的技術(shù)專業(yè)人士。
王小寧,中國人民大學統(tǒng)計學院14級碩士、16級博士,統(tǒng)計之都副主編,中國人民大學數(shù)據(jù)挖掘中心分布式計算負責人,中國人民大學中國調(diào)查與數(shù)據(jù)中心研究員,研究興趣包括統(tǒng)計機器學習、缺失數(shù)據(jù)處理和數(shù)據(jù)流抽樣。
Rajiv Tiwari,是一位有著超過 15年經(jīng)驗的自由大數(shù)據(jù)架構(gòu)師,他的研究方向包括大數(shù)據(jù)、數(shù)據(jù)分析、數(shù)據(jù)管理、數(shù)據(jù)架構(gòu)、數(shù)據(jù)清洗 /數(shù)據(jù)整合、數(shù)據(jù)倉庫,以及銀行和其他金融組織中的數(shù)據(jù)智能等。
他畢業(yè)于瓦拉納西印度理工學院( IIT)電子工程專業(yè),在英國工作了 10年有余,大部分時間居住在英國金融城——倫敦。從 2010年起, Rajiv 就開始使用 Hadoop,當時銀行部門使用 Hadoop 的還很少。他目前正在幫助 1級投資銀行( Tier 1 Investment Bank)在 Hadoop平臺上實施一個大型風險分析項目。
目 錄
第 1章 大數(shù)據(jù)回顧. ...................................................................... 1
大數(shù)據(jù)是什么 ........ 1
數(shù)據(jù)量 ............ 2
數(shù)據(jù)速度 .......... 2
數(shù)據(jù)類型 .......... 3
大數(shù)據(jù)技術(shù)的演 ...... 3
過去 ................... 3
現(xiàn)在 .................... 4
未來 ................ 5
大數(shù)據(jù)愿景 ............ 5
存儲 .................. 6
NoSQL ............ 6
NoSQL數(shù)據(jù)庫類型 ....... 7
資源管理 ........... 7
數(shù)據(jù)治理 ............ 8
批量計算 ............ 8
實時計算 ............. 8
數(shù)據(jù)整合工具 ........... 9
機器學習 ........... 9
商務智能和可視化 ......... 9
大數(shù)據(jù)相關(guān)的職業(yè) ........ 10
Hadoop架構(gòu) ..............11
HDFS集群 ............. 12
MapReduce V1 ........ 14
MapReduce V2——YARN ......... 15
Hadoop生態(tài)圈簡介 ...... 18
馴服大數(shù)據(jù) .... 18
Hadoop——英雄 ......... 19
HDFS——Hadoop分布式系統(tǒng) ............ 19
Hadoop版本 .... 23
發(fā)行版——本地部署 .......... 25
發(fā)行版——云端 ................. 27
總結(jié) .............................. 28
第 2章 金融服務中的大數(shù)據(jù).................. 29
各個行業(yè)的大數(shù)據(jù)使用情況 .......................... 29
衛(wèi)生保健 ............................. 30
人類科學 ............................. 30
電信 ..................................... 31
在線零售商 ......................... 31
為什么金融部門需要大數(shù)據(jù) 31
金融部門的大數(shù)據(jù)應用案例 34
HDFS上的數(shù)據(jù)歸檔 ......... 34
監(jiān)管 ..................................... 35
欺詐檢測 .............................. 35
交易數(shù)據(jù) .............................. 36
風險管理 ............................. 36
客戶行為預測 ...................... 36
情感分析——非結(jié)構(gòu)化 ..... 36
其他應用案例 ..................... 37
金融大數(shù)據(jù)的演進過程 ........ 37
應該如何學習金融大數(shù)據(jù) .... 41
把你的數(shù)據(jù)上傳到 HDFS上 .................... 41
從 HDFS上查詢數(shù)據(jù) ........ 42
在 Hadoop上的 SQL............. 43
實時 ..................................... 44
數(shù)據(jù)治理和運營 ................. 44
ETL工具 .............................. 45
數(shù)據(jù)分析和商業(yè)智能 ......... 45
金融大數(shù)據(jù)的實現(xiàn) ................ 46
關(guān)鍵挑戰(zhàn) ............................. 46
克服挑戰(zhàn) .............................. 47
總結(jié) ........................................ 50
第 3章 在云端使用 Hadoop........ 51
大數(shù)據(jù)云的故事 .................... 51
原因 ...................................... 52
時機 ...................................... 53
收獲 ..................................... 54
項目細節(jié)——在云中進行風險模擬 .............................. 54
解決方案 ............................. 55
現(xiàn)實世界 ............................. 55
目標世界 ............................. 57
數(shù)據(jù)轉(zhuǎn)換 ............................. 60
數(shù)據(jù)分析 ............................. 62
總結(jié) ........................................ 63
第 4章 使用 Hadoop進行數(shù)據(jù)遷移. ............. 65
項目細節(jié)——歸檔你的交易數(shù)據(jù) ................. 65
解決方案 ............................. 67
項目第一階段——分裂交易數(shù)據(jù)到數(shù)據(jù)倉庫和 Hadoop ......... 68
項目第二階段——完成數(shù)據(jù)從關(guān)系型數(shù)據(jù)倉庫到 Hadoop的遷移 ..... 77
總結(jié) ......................................... 83
第 5章 入門. .............................. 85
項目詳細信息——風險和監(jiān)管報告 ............. 86
解決方案 .............................. 87
現(xiàn)實世界 ............................. 87
目標世界 ............................. 88
數(shù)據(jù)收集 ............................. 89
數(shù)據(jù)轉(zhuǎn)換 ............................. 97
數(shù)據(jù)分析 ............................112
總結(jié) .......................................116
第 6章 變得有經(jīng)驗. ....... 117
實時大數(shù)據(jù) ...........................117
項目細節(jié)——識別欺詐交易 ....................119
解決方案 ........................... 120
現(xiàn)實世界 ............................... 120
目標世界 ............................ 120
馬爾科夫鏈模型執(zhí)行——批處理模式 ............... 121
數(shù)據(jù)收集 ............................. 126
數(shù)據(jù)轉(zhuǎn)換 ........................... 128
總結(jié) .......................... 132
第 7章 深入擴展 Hadoop的企業(yè)級應用................ 133
擴展開來——實際上的水平 ..................... 134
更多的大數(shù)據(jù)使用案例 ................................. 135
使用案例——再談欺詐問題 ................. 136
解決方案 ........................................... 136
使用案例——用戶投訴 ........................ 137
解決方案 ........................................ 137
使用案例——算法交易 ................... 137
解決方案 ................ 138
使用案例——外匯交易 .................................. 138
解決方案...................... 138
使用案例——基于社交媒體的交易數(shù)據(jù) ......... 139
解決方案 ........................................ 139
使用案例——非大數(shù)據(jù) ................... 140
解決方案 ............................. 140
數(shù)據(jù)湖 .................................. 140
Lambda架構(gòu) ........................ 143
大數(shù)據(jù)管理 .......................... 144
Apache Falcon概覽 ......... 146
安全性 .................................. 147
總結(jié) ...................................... 149
第 8章 Hadoop的快速增長..................... 151
Hadoop發(fā)行版的升級周期 .................. 151
最佳實踐和標準 ...................................... 154
環(huán)境 ............................................... 154
與 BI和 ETL工具的集成 ................ 155
提示 ............................................. 155
新的趨勢 ................................... 157
總結(jié) ................ 158