在數(shù)據(jù)湖倉的所有新增要素中,排名第一的就是可以利于數(shù)據(jù)分析和機器學(xué)習(xí)所用的分析基礎(chǔ)設(shè)施。分析基礎(chǔ)設(shè)施包括一眾大家廣為熟悉的東西,當然也包括一些可能對大家還有些陌生或略帶新鮮感的概念。比如包括:元數(shù)據(jù)、數(shù)據(jù)血緣、 數(shù)據(jù)體量的度量 、數(shù)據(jù)創(chuàng)建的歷史記錄、數(shù)據(jù)轉(zhuǎn)換描述。 數(shù)據(jù)湖倉的第二個新增要素,是識別和使用通用連接器。通用連接器允許合并和比較所有不同來源的數(shù)據(jù)。如果沒有通用連接器,就很難(實際上是幾乎不可能)將數(shù)據(jù)湖倉中的不同數(shù)據(jù)關(guān)聯(lián)起來。但有了這個中西,就可以關(guān)聯(lián)任何類型的數(shù)據(jù)。 使用數(shù)據(jù)湖倉,就有可能實現(xiàn)以往任何其它方式都不可行或不可能實現(xiàn)的某種程度的數(shù)據(jù)分析和機器學(xué)習(xí)。 但與其它架構(gòu)一樣,我們需要理解數(shù)據(jù)湖倉的架構(gòu)以及它的能力,以便于我們基于這種架構(gòu)創(chuàng)建數(shù)據(jù)分析藍圖和開展數(shù)據(jù)分析規(guī)劃。
超越數(shù)據(jù)庫與數(shù)據(jù)湖,新一代數(shù)據(jù)管理的新模式數(shù)據(jù)湖倉為數(shù)據(jù)分析帶來新變革,為更有效、更便捷、更科學(xué)、更可靠、更靈活的數(shù)據(jù)分析提供基礎(chǔ)。
與過去相對簡單的應(yīng)用程序不同,當今的應(yīng)用形態(tài)豐富多樣,各種類型的數(shù)據(jù)、技術(shù)、硬件和小工具等充斥著這個世界。數(shù)據(jù)以不同的形式從四方涌來,甚至體量多得有些令人無法招架。
數(shù)據(jù)是用來分析的。對于企業(yè)等組織,可分析的數(shù)據(jù)有三種類型。首先是經(jīng)典的結(jié)構(gòu)化數(shù)據(jù),這種類型的數(shù)據(jù)出現(xiàn)最早,存在時間最長,是由業(yè)務(wù)開展所產(chǎn)生的。其次是文本數(shù)據(jù),這些數(shù)據(jù)可能來自電子郵件、呼叫中心的通話記錄,也可能來自商業(yè)合同、醫(yī)療記錄或其他文本數(shù)據(jù)。對于計算機而言,文本數(shù)據(jù)一度是個黑匣子,因為它只能被計算機存儲而不便于分析,但如今文本的提取、轉(zhuǎn)換和加載(ETL)技術(shù)為處理文本數(shù)據(jù)進行標準化分析大開方便之門。最后是模擬數(shù)據(jù)和物聯(lián)網(wǎng)數(shù)據(jù),各種類型的機器,例如無人機、電子眼、溫度計和電子手表等都能產(chǎn)生這樣的數(shù)據(jù)。模擬數(shù)據(jù)和物聯(lián)網(wǎng)數(shù)據(jù)的形式比結(jié)構(gòu)化數(shù)據(jù)或文本數(shù)據(jù)要粗糙得多,并且有大量數(shù)據(jù)是自動生成的,這類數(shù)據(jù)多屬于數(shù)據(jù)科學(xué)家研究的范疇。
起初,我們把上述這些數(shù)據(jù)都扔進了一個叫作數(shù)據(jù)湖的坑洞里。但我們很快發(fā)現(xiàn),僅僅把數(shù)據(jù)丟進去似乎毫無意義。因為如果要想讓數(shù)據(jù)能夠發(fā)揮作用,它就需要被分析,而分析數(shù)據(jù)則需要:
(1)將數(shù)據(jù)與其他數(shù)據(jù)相互關(guān)聯(lián);
(2)需要數(shù)據(jù)湖自身擁有分析基礎(chǔ)設(shè)施并向終端用戶提供服務(wù)。
除非我們滿足這兩個條件,否則數(shù)據(jù)湖就很容易變成數(shù)據(jù)沼澤,而這個沼澤在一段時間后便會開始變味發(fā)臭。
總而言之,不滿足分析標準的數(shù)據(jù)湖只會浪費時間和金錢。
而數(shù)據(jù)湖倉正是針對上述需求和當前不足而誕生的。它在數(shù)據(jù)湖的基礎(chǔ)上增加了一些要素,能夠讓數(shù)據(jù)變得有用且富有成效。換個方式來說,如果現(xiàn)在你還在構(gòu)建一個數(shù)據(jù)湖,而沒有將其升級轉(zhuǎn)變?yōu)閿?shù)據(jù)湖倉的話,那你構(gòu)建的僅僅是一個昂貴且礙眼的東西,隨著時間的推移,它只會變成沉重的負擔。
在數(shù)據(jù)湖倉的所有新增要素中,第一個是用于數(shù)據(jù)分析和機器學(xué)習(xí)的分析基礎(chǔ)設(shè)施(analytical infrastructure)。分析基礎(chǔ)設(shè)施包括一些廣為大家所熟悉的東西,當然也包括一些可能大家還有些陌生的概念。比如:
● 元數(shù)據(jù);
● 數(shù)據(jù)血緣;
● 數(shù)據(jù)體量的度量;
● 數(shù)據(jù)創(chuàng)建的歷史記錄;
● 數(shù)據(jù)轉(zhuǎn)換描述。
數(shù)據(jù)湖倉的第二個新增要素是識別和使用通用連接器。通用連接器允許合并和比較所有不同來源的數(shù)據(jù)。如果沒有通用連接器,就很難(實際上是幾乎不可能)將數(shù)據(jù)湖倉中的不同數(shù)據(jù)關(guān)聯(lián)起來。但有了這個東西,就可以關(guān)聯(lián)任何類型的數(shù)據(jù)。
使用數(shù)據(jù)湖倉,就有可能實現(xiàn)任何其他方式都不可行或不可能實現(xiàn)的某種程度的數(shù)據(jù)分析和機器學(xué)習(xí)。但與其他架構(gòu)一樣,我們需要理解數(shù)據(jù)湖倉的架構(gòu)及其能力,以便于我們基于這種架構(gòu)創(chuàng)建數(shù)據(jù)分析藍圖和開展數(shù)據(jù)分析規(guī)劃。
胡博,國際數(shù)據(jù)管理協(xié)會(DAMA)中國理事,國家重點研發(fā)計劃課題負責(zé)人。發(fā)表過學(xué)術(shù)論文20余篇,在云平臺、數(shù)據(jù)中臺等方面授權(quán)國家發(fā)明專利12項;是中國計算機學(xué)會高級會員、中國計算機協(xié)會服務(wù)計算專委會執(zhí)行委員、SCI期刊IJWSR 執(zhí)行主編、華中農(nóng)業(yè)大學(xué)、深圳大學(xué)、武漢科技大學(xué)和海南師范大學(xué)碩士生導(dǎo)師。
引言
第一章向數(shù)據(jù)湖倉演進
1.技術(shù)的演進3
2.組織內(nèi)的全部數(shù)據(jù)8
3.商業(yè)價值在哪里?12
4.數(shù)據(jù)湖13
5.當前數(shù)據(jù)架構(gòu)的挑戰(zhàn)14
6.數(shù)據(jù)湖倉的出現(xiàn)15
第二章數(shù)據(jù)科學(xué)家和終端用戶
1.數(shù)據(jù)湖20
2.分析基礎(chǔ)設(shè)施21
3.不同的受眾21
4.分析工具不同22
5.分析目的不同23
6.分析方法不同24
7.數(shù)據(jù)類型不同24
第三章數(shù)據(jù)湖倉中的不同類型數(shù)據(jù)
1.數(shù)據(jù)的類型28
2.不同數(shù)據(jù)的容量31
3.跨越不同類型數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)32
4.基于訪問概率對數(shù)據(jù)進行分片33
5.模擬和物聯(lián)網(wǎng)環(huán)境中的關(guān)聯(lián)數(shù)據(jù)33
6.分析基礎(chǔ)設(shè)施35
第四章開放的湖倉環(huán)境
1.開放系統(tǒng)的演進38
2.與時俱進的創(chuàng)新39
3.建立在開放、標準文件格式之上的非結(jié)構(gòu)化湖倉39
4.開源數(shù)據(jù)湖倉軟件40
5.數(shù)據(jù)湖倉提供超越SQL的開放API41
6.數(shù)據(jù)湖倉支持開放數(shù)據(jù)共享42
7.數(shù)據(jù)湖倉支持開放數(shù)據(jù)探索43
8.數(shù)據(jù)湖倉通過開放數(shù)據(jù)目錄簡化數(shù)據(jù)發(fā)現(xiàn)44
9.利用云原生架構(gòu)的數(shù)據(jù)湖倉45
10.向開放的數(shù)據(jù)湖倉演進46
第五章機器學(xué)習(xí)和數(shù)據(jù)湖倉
1.機器學(xué)習(xí)47
2.機器學(xué)習(xí)需要湖倉提供什么?48
3.從數(shù)據(jù)中挖掘出新價值48
4.解決這個難題48
5.非結(jié)構(gòu)化數(shù)據(jù)問題49
6.開源的重要性51
7.發(fā)揮云的彈性優(yōu)勢51
8.為數(shù)據(jù)平臺設(shè)計MLOps52
9.案例:運用機器學(xué)習(xí)對胸透X光片進行分類53
10.數(shù)據(jù)湖倉的非結(jié)構(gòu)化組件的演進55
第六章數(shù)據(jù)湖倉中的分析基礎(chǔ)設(shè)施
1.元數(shù)據(jù)58
2.數(shù)據(jù)模型59
3.數(shù)據(jù)質(zhì)量60
4.ETL61
5.文本ETL62
6.分類標準62
7.數(shù)據(jù)體量63
8.數(shù)據(jù)血緣64
9.KPI65
10.數(shù)據(jù)的粒度66
11.事務(wù)66
12.鍵66
13.處理計劃67
14.匯總數(shù)據(jù)67
15.最低要求68
第七章數(shù)據(jù)湖倉中的數(shù)據(jù)融合
1.湖倉和數(shù)據(jù)湖倉69
2.數(shù)據(jù)的源頭70
3.不同類型的分析70
4.通用標識符72
5.結(jié)構(gòu)化標識符72
6.重復(fù)數(shù)據(jù)73
7.文本環(huán)境中的標識符74
8.文本數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的融合76
9.匹配的重要性81
第八章跨數(shù)據(jù)湖倉架構(gòu)的分析類型
1.已知查詢83
2.啟發(fā)式分析85
第九章數(shù)據(jù)湖倉倉務(wù)管理
1.數(shù)據(jù)集成和互操作92
2.數(shù)據(jù)湖倉的主數(shù)據(jù)及參考數(shù)據(jù)94
3.數(shù)據(jù)湖倉的隱私、保密和數(shù)據(jù)保護96
4.數(shù)據(jù)湖倉中面向未來的數(shù)據(jù)97
5.面向未來的數(shù)據(jù)的五個階段101
6.數(shù)據(jù)湖倉的例行維護108
第十章可視化
1.將數(shù)據(jù)轉(zhuǎn)化為信息110
2.什么是數(shù)據(jù)可視化?為什么它很重要?112
3.數(shù)據(jù)可視化、數(shù)據(jù)分析和數(shù)據(jù)解釋之間的差異113
4.數(shù)據(jù)可視化的優(yōu)勢115
第十一章數(shù)據(jù)湖倉架構(gòu)中的數(shù)據(jù)血緣
1.計算鏈124
2.數(shù)據(jù)選取126
3.算法差異126
4.文本數(shù)據(jù)血緣127
5.其他非結(jié)構(gòu)化環(huán)境的數(shù)據(jù)血緣128
6.數(shù)據(jù)血緣129
第十二章數(shù)據(jù)湖倉架構(gòu)中的訪問概率
1.數(shù)據(jù)的高效排列131
2.數(shù)據(jù)的訪問概率131
3.數(shù)據(jù)湖倉中不同的數(shù)據(jù)類型133
4.數(shù)據(jù)量的相對差異133
5.數(shù)據(jù)分片的優(yōu)勢134
6.使用大容量存儲134
7.附加索引135
第十三章跨越鴻溝
1.合并數(shù)據(jù)136
2.不同種類的數(shù)據(jù)137
3.不同的業(yè)務(wù)需求137
4.跨越鴻溝137
第十四章數(shù)據(jù)湖倉中的海量數(shù)據(jù)
1.海量數(shù)據(jù)的分布145
2.高性能、大容量的數(shù)據(jù)存儲146
3.附加索引和摘要146
4.周期性的數(shù)據(jù)過濾148
5.數(shù)據(jù)標記法148
6.分離文本和數(shù)據(jù)庫149
7.歸檔存儲149
8.監(jiān)測活動150
9.并行處理151
第十五章數(shù)據(jù)治理與數(shù)據(jù)湖倉
1.數(shù)據(jù)治理的目的152
2.數(shù)據(jù)生命周期管理154
3.數(shù)據(jù)質(zhì)量管理156
4.元數(shù)據(jù)管理的重要性157
5.隨著時間推移的數(shù)據(jù)治理157
6.數(shù)據(jù)治理的類型158
7.貫穿數(shù)據(jù)湖倉的數(shù)據(jù)治理159
8.數(shù)據(jù)治理的注意事項160
第十六章現(xiàn)代數(shù)據(jù)倉庫
1.應(yīng)用程序的普及162
2.信息孤島163
3.復(fù)雜網(wǎng)絡(luò)環(huán)境164
4.數(shù)據(jù)倉庫165
5.數(shù)據(jù)倉庫的定義166
6.歷史數(shù)據(jù)167
7.關(guān)系模型167
8.數(shù)據(jù)的本地形式168
9.集成數(shù)據(jù)的需要169
10.時過境遷170
11.當今世界170
12.不同體量的數(shù)據(jù)172
13.數(shù)據(jù)與業(yè)務(wù)的關(guān)系173
14.將數(shù)據(jù)納入數(shù)據(jù)倉庫173
15.現(xiàn)代數(shù)據(jù)倉庫174
16.什么時候我們不再需要數(shù)據(jù)倉庫?175
17.數(shù)據(jù)湖176
18.以數(shù)據(jù)倉庫作為基礎(chǔ)177
19.數(shù)據(jù)堆棧178