本書從技術(shù)維度系統(tǒng)講解了用戶畫像的方法論和一些常見的工程化解決方案。
全書共分為9個章節(jié)。
用戶畫像基礎(chǔ):講述用戶畫像的一些基礎(chǔ)概念、數(shù)據(jù)倉庫架構(gòu)、整個項(xiàng)目開發(fā)的流程、以及畫像相關(guān)的表結(jié)構(gòu)設(shè)計(jì);
第二章 數(shù)據(jù)指標(biāo)體系:從用戶屬性、用戶行為、用戶消費(fèi)、風(fēng)險控制等四個維度詳細(xì)羅列了常用到的用戶標(biāo)簽,這些標(biāo)簽基本涵蓋了大部分場景一半以上的標(biāo)簽需求。同時介紹了標(biāo)簽的規(guī)范化命名方式;
第三章 標(biāo)簽數(shù)據(jù)存儲:講了為什么使用Hive、MySQL、hbase等數(shù)據(jù)庫對標(biāo)簽數(shù)據(jù)進(jìn)行存儲,以及存儲實(shí)現(xiàn)方式;
第四章 標(biāo)簽數(shù)據(jù)開發(fā):本章是全書的重點(diǎn)章節(jié),講述了統(tǒng)計(jì)類標(biāo)簽、規(guī)則類標(biāo)簽、挖掘類標(biāo)簽、流式計(jì)算類標(biāo)簽的開發(fā)。以及用戶特征庫、人群計(jì)算、標(biāo)簽權(quán)重計(jì)算、打通數(shù)據(jù)服務(wù)層等方面的開發(fā)。;
第五章 開發(fā)性能調(diào)優(yōu):主要包括數(shù)據(jù)傾斜調(diào)優(yōu)、開發(fā)中間表、讀取小文件處理、redis緩存熱數(shù)據(jù)等數(shù)據(jù)性能優(yōu)化方面;
第六章 作業(yè)流程調(diào)度:數(shù)據(jù)的ETL調(diào)度是數(shù)據(jù)開發(fā)中的重要內(nèi)容,本章主要講了如何使用當(dāng)下熱門的開源調(diào)度工具Airflow進(jìn)行數(shù)據(jù)的調(diào)度及場景調(diào)度異常的排查工作;
第七章 用戶畫像產(chǎn)品化:開發(fā)畫像后的標(biāo)簽數(shù)據(jù),如果只是“躺在”數(shù)據(jù)倉庫中,并不能發(fā)揮更大的業(yè)務(wù)價值。只有將畫像數(shù)據(jù)產(chǎn)品化后才能更方便業(yè)務(wù)方的使用。本章主要講述了產(chǎn)品端的用戶畫像是什么樣子?如何幫助業(yè)務(wù)人員進(jìn)行分析,提供服務(wù)的;
第八章 用戶畫像應(yīng)用:用戶畫像的應(yīng)用包括用戶分析、商品分析、流量分析、push、短信、郵件等營銷以及站內(nèi)的個性化推薦等應(yīng)用場景;
第九章 實(shí)踐案例詳解:前面的八個章節(jié)主要從工程化開發(fā)的角度講了如何從0到1搭建起用戶畫像系統(tǒng)及其應(yīng)用場景,本章從完整的工業(yè)實(shí)踐應(yīng)用角度,通過兩個實(shí)踐案例幫助讀者更好地理解畫像系統(tǒng)是如何切入到應(yīng)用場景中幫助提升工作效率、提高ROI的。
前言
第1章 用戶畫像基礎(chǔ)1
1.1 用戶畫像是什么1
1.1.1 畫像簡介1
1.1.2 標(biāo)簽類型3
1.2 數(shù)據(jù)架構(gòu)4
1.3 主要覆蓋模塊5
1.4 開發(fā)階段流程7
1.4.1 開發(fā)上線流程7
1.4.2 各階段關(guān)鍵產(chǎn)出9
1.5 畫像應(yīng)用的落地10
1.6 某用戶畫像案例11
1.6.1 案例背景介紹11
1.6.2 相關(guān)元數(shù)據(jù)12
1.6.3 畫像表結(jié)構(gòu)設(shè)計(jì)16
1.7 定性類畫像21
1.8 本章小結(jié)22
第2章 數(shù)據(jù)指標(biāo)體系23
2.1 用戶屬性維度23
2.1.1 常見用戶屬性23
2.1.2 用戶性別26
2.2 用戶行為維度27
2.3 用戶消費(fèi)維度27
2.4 風(fēng)險控制維度29
2.5 社交屬性維度30
2.6 其他常見標(biāo)簽劃分方式31
2.7 標(biāo)簽命名方式33
2.8 本章小結(jié)34
第3章 標(biāo)簽數(shù)據(jù)存儲35
3.1 Hive存儲35
3.1.1 Hive數(shù)據(jù)倉庫35
3.1.2 分區(qū)存儲37
3.1.3 標(biāo)簽匯聚39
3.1.4 ID-MAP41
3.2 MySQL存儲45
3.2.1 元數(shù)據(jù)管理45
3.2.2 監(jiān)控預(yù)警數(shù)據(jù)47
3.2.3 結(jié)果集存儲47
3.3 HBase存儲50
3.3.1 HBase簡介50
3.3.2 應(yīng)用場景52
3.3.3 工程化案例52
3.4 Elasticsearch存儲59
3.4.1 Elasticsearch簡介59
3.4.2 應(yīng)用場景60
3.4.3 工程化案例64
3.5 本章小結(jié)67
第4章 標(biāo)簽數(shù)據(jù)開發(fā)69
4.1 統(tǒng)計(jì)類標(biāo)簽開發(fā)69
4.1.1 近30日購買行為標(biāo)簽案例70
4.1.2 最近來訪標(biāo)簽案例73
4.2 規(guī)則類標(biāo)簽開發(fā)74
4.2.1 用戶價值類標(biāo)簽案例75
4.2.2 用戶活躍度標(biāo)簽案例79
4.3 挖掘類標(biāo)簽開發(fā)84
4.3.1 案例背景84
4.3.2 特征選取及開發(fā)85
4.3.3 文本分詞處理86
4.3.4 數(shù)據(jù)結(jié)構(gòu)處理89
4.3.5 文本TF-IDF權(quán)重90
4.3.6 樸素貝葉斯分類92
4.4 流式計(jì)算標(biāo)簽開發(fā)95
4.4.1 流式標(biāo)簽建?蚣95
4.4.2 Kafka簡介96
4.4.3 Spark Streaming集成Kafka97
4.4.4 標(biāo)簽開發(fā)及工程化99
4.5 用戶特征庫開發(fā)104
4.5.1 特征庫規(guī)劃105
4.5.2 數(shù)據(jù)開發(fā)107
4.5.3 其他特征庫規(guī)劃111
4.6 標(biāo)簽權(quán)重計(jì)算112
4.6.1 TF-IDF詞空間向量112
4.6.2 時間衰減系數(shù)114
4.6.3 標(biāo)簽權(quán)重配置115
4.7 標(biāo)簽相似度計(jì)算116
4.7.1 案例場景116
4.7.2 數(shù)據(jù)開發(fā)118
4.8 組合標(biāo)簽計(jì)算122
4.8.1 應(yīng)用場景122
4.8.2 數(shù)據(jù)計(jì)算123
4.9 數(shù)據(jù)服務(wù)層開發(fā)124
4.9.1 推送至營銷系統(tǒng)125
4.9.2 接口調(diào)用服務(wù)127
4.10 GraphX圖計(jì)算用戶129
4.10.1 圖計(jì)算理論及應(yīng)用場景129
4.10.2 數(shù)據(jù)開發(fā)案例132
4.11 本章小結(jié)135
第5章 開發(fā)性能調(diào)優(yōu)137
5.1 數(shù)據(jù)傾斜調(diào)優(yōu)137
5.2 合并小文件141
5.3 緩存中間數(shù)據(jù)143
5.4 開發(fā)中間表144
5.5 本章小結(jié)145
第6章 作業(yè)流程調(diào)度146
6.1 crontab命令調(diào)度146
6.2 Airflow工作平臺148
6.2.1 基礎(chǔ)概念149
6.2.2 Airflow服務(wù)構(gòu)成150
6.2.3 Airflow安裝151
6.2.4 主要模塊功能151
6.2.5 工作流調(diào)度155
6.2.6 腳本實(shí)例155
6.2.7 常用命令行158
6.2.8 工程化調(diào)度方案158
6.3 數(shù)據(jù)監(jiān)控預(yù)警161
6.3.1 標(biāo)簽監(jiān)控預(yù)警161
6.3.2 服務(wù)層預(yù)警162
6.4 ETL異常排查164
6.5 本章小結(jié)166
第7章 用戶畫像產(chǎn)品化167
7.1 即時查詢167
7.2 標(biāo)簽視圖與標(biāo)簽查詢169
7.3 元數(shù)據(jù)管理171
7.4 用戶分群功能173
7.5 人群分析功能175
7.6 本章小結(jié)177
第8章 用戶畫像應(yīng)用178
8.1 經(jīng)營分析178
8.1.1 商品分析178
8.1.2 用戶分析179
8.1.3 渠道分析180
8.1.4 漏斗分析185
8.1.5 客服話術(shù)186
8.1.6 人群特征分析186
8.2 精準(zhǔn)營銷187
8.2.1 短信/郵件營銷187
8.2.2 效果分析188
8.3 個性化推薦與服務(wù)189
8.4 本章小結(jié)190
第9章 實(shí)踐案例詳解191
9.1 風(fēng)控反欺詐預(yù)警191
9.1.1 應(yīng)用背景191
9.1.2 用戶畫像切入點(diǎn)192
9.2 A/B人群效果測試193
9.2.1 案例背景194
9.2.2 用戶畫像切入點(diǎn)194
9.2.3 效果分析195
9.3 用戶生命周期劃分與營銷195
9.3.1 生命周期劃分196
9.3.2 不同階段的用戶觸達(dá)策略201
9.3.3 畫像在生命周期中的應(yīng)用204
9.3.4 應(yīng)用案例206
9.4 高價值用戶實(shí)時營銷209
9.4.1 項(xiàng)目應(yīng)用背景209
9.4.2 用戶畫像切入點(diǎn)209
9.4.3 HBase應(yīng)用場景小結(jié)209
9.5 短信營銷用戶211
9.5.1 案例背景211
9.5.2 畫像切入及其應(yīng)用效果211
9.6 Session行為分析應(yīng)用213
9.6.1 關(guān)于用戶行為分析213
9.6.2 案例背景218
9.6.3 特征構(gòu)建219
9.6.4 分析方法與結(jié)論221
9.7 人群效果監(jiān)測報表搭建228
9.7.1 案例背景228
9.7.2 邏輯梳理228
9.7.3 自動報表郵件237
9.8 基于用戶特征庫篩選目標(biāo)人群239
9.8.1 案例背景239
9.8.2 應(yīng)用方式及效果240
9.9 本章小結(jié)241
附錄 某產(chǎn)品用戶畫像項(xiàng)目規(guī)劃文檔242