為了適應(yīng)數(shù)字經(jīng)濟時代的新發(fā)展趨勢,培養(yǎng)新時代大數(shù)據(jù)專業(yè)人才,編者通過總結(jié)多年的教學經(jīng)驗,借鑒國內(nèi)外相關(guān)領(lǐng)域的教學優(yōu)勢,詳細剖析大數(shù)據(jù)采集、預(yù)處理與可視化的基礎(chǔ)理論、關(guān)鍵技術(shù)、相關(guān)工具和應(yīng)用案例,進而編成本書。
本書是集理論與實踐于一體的應(yīng)用型教材。全書共7章,包括大數(shù)據(jù)概述、Python程序設(shè)計、大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理技術(shù)、Excel數(shù)據(jù)獲取與預(yù)處理、Python數(shù)據(jù)預(yù)處理、數(shù)據(jù)可視化技術(shù)。本書在編寫中著重介紹基本原理,同時突出工程應(yīng)用,并以清晰、容易理解的方式展現(xiàn)大數(shù)據(jù)采集、預(yù)處理與可視化的基礎(chǔ)知識、基本任務(wù)、常用方法、實用場景和主要流程,力圖做到基本概念準確、闡述條理清晰、主體內(nèi)容精練、重點難點突出、理論聯(lián)系實際。此外,本書還將反映相關(guān)領(lǐng)域新技術(shù)的發(fā)展情況。
本書可作為計算機、人工智能、大數(shù)據(jù)、電子商務(wù)、電氣、電子、統(tǒng)計學、會計學等相關(guān)專業(yè)的大數(shù)據(jù)技術(shù)類課程的教材,也可供相關(guān)領(lǐng)域的科技人員參考使用,還可作為數(shù)據(jù)分析及應(yīng)用類認證培訓課程用書。
(1)知識講解宜讀易懂,語言表述順暢自然。
講述大數(shù)據(jù)技術(shù)中通用的基礎(chǔ)知識,為讀者進一步研究理論和應(yīng)用技術(shù)打下堅實的基礎(chǔ);靖拍钋逦、準確、精練,語言表述順暢、宜讀、自然,盡量避免使用晦澀難懂的語言描述深奧的理論和技術(shù)知識。
(2)系統(tǒng)構(gòu)建知識體系,培養(yǎng)讀者的大數(shù)據(jù)思維。
建立恰當?shù)闹R體系,并把相關(guān)知識進行合理組織,而不是雜亂無章地堆砌。注重大數(shù)據(jù)技術(shù)的科學分析,有利于培養(yǎng)讀者的大數(shù)據(jù)思維。
(3)理論與實踐相結(jié)合,注重培養(yǎng)實戰(zhàn)型人才。
針對大數(shù)據(jù)技術(shù)的相關(guān)應(yīng)用,通過對典型實例進行分析,讀者能夠深入且全面地理解并掌握大數(shù)據(jù)技術(shù)的具體應(yīng)用方法,進而提高自身獨立分析問題和解決問題的能力。
(4)配套豐富教輔資源,立體化服務(wù)高校人才培養(yǎng)。
為了更好地服務(wù)院校教學,助力大數(shù)據(jù)領(lǐng)域工程型人才培養(yǎng),編者為本書配套打造了多種教輔資源,如課程 PPT、教學大綱、教案、源代碼、案例包、課后習題答案、微課視頻等,選用本書的教師可以到人郵教育社區(qū)(www.ryjiaoyu.com)下載相關(guān)資源。
葛繼科:
西南大學博士,加拿大麥吉爾大學博士后出站,重慶科技學院教授,碩士研究生導師。主要從事人工智能、大數(shù)據(jù)應(yīng)用、網(wǎng)絡(luò)安全等方面的教學與研究工作。主講課程包括:大數(shù)據(jù)平臺與應(yīng)用、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)采集與優(yōu)化、人工智能、計算機網(wǎng)絡(luò)、網(wǎng)絡(luò)安全技術(shù)等。主持省部級教學質(zhì)量工程項目1項,主持省部級教改重點項目2項、一般項目1項、產(chǎn)學合作育人項目9項、校級教改項目4項,發(fā)表教改論文8篇。獲省部級教學成果二等獎1項、校級教學成果二等獎2項。主持省部級科研項目7項,參與國家級科研項目3項、省部級5項;發(fā)表學術(shù)論文30余篇,其中SCI收錄4篇、EI收錄20篇、中文核心3篇,授權(quán)發(fā)明專利6項。出版教學著作《計算機網(wǎng)絡(luò)安全技術(shù)應(yīng)用探究》1部,主編《油田大數(shù)據(jù)應(yīng)用技術(shù)》(石油工業(yè)出版社,2021年)、《量子人工智能引論》(西南師范大學出版社,2021年)等學術(shù)著作。
【章名目錄】
第 1章 大數(shù)據(jù)概述
第2章 Python程序設(shè)計
第3章 大數(shù)據(jù)采集
第4章 大數(shù)據(jù)預(yù)處理技術(shù)
第5章 Excel數(shù)據(jù)獲取與預(yù)處理
第6章 Python數(shù)據(jù)預(yù)處理
第7章 數(shù)據(jù)可視化技術(shù)
【詳細目錄】
第 1章 大數(shù)據(jù)概述
1.1 大數(shù)據(jù)時代 1
1.2 大數(shù)據(jù)的相關(guān)概念及特征 2
1.2.1 大數(shù)據(jù)的概念 2
1.2.2 大數(shù)據(jù)的發(fā)展歷程 3
1.2.3 大數(shù)據(jù)的特征 5
1.2.4 大數(shù)據(jù)的作用 6
1.2.5 大數(shù)據(jù)的應(yīng)用領(lǐng)域 7
1.2.6 大數(shù)據(jù)的關(guān)鍵技術(shù) 8
1.3 大數(shù)據(jù)系統(tǒng)簡介 9
1.3.1 Hadoop生態(tài)系統(tǒng) 9
1.3.2 Spark生態(tài)系統(tǒng) 12
1.4 大數(shù)據(jù)思維 15
1.4.1 傳統(tǒng)思維方式 15
1.4.2 大數(shù)據(jù)思維方式 16
1.5 大數(shù)據(jù)倫理 17
1.5.1 大數(shù)據(jù)倫理的由來 17
1.5.2 大數(shù)據(jù)的倫理問題 18
1.5.3 大數(shù)據(jù)的倫理原則 21
1.6 大數(shù)據(jù)安全 22
1.6.1 數(shù)據(jù)全生命周期安全 22
1.6.2 大數(shù)據(jù)安全防護技術(shù) 23
1.7 本章小結(jié) 24
1.8 習題 24
第2章 Python程序設(shè)計
2.1 Python的安裝與運行 25
2.1.1 Python的特點 25
2.1.2 Python的下載與安裝 26
2.1.3 Python程序的運行 27
2.1.4 第三方軟件包的安裝 29
2.1.5 Python編程規(guī)范 31
2.2 數(shù)據(jù)類型與運算符 33
2.2.1 數(shù)字和字符串 33
2.2.2 列表和元組 38
2.2.3 字典和集合 42
2.2.4 運算符 44
2.3 程序控制結(jié)構(gòu) 47
2.3.1 程序流程圖 47
2.3.2 順序結(jié)構(gòu) 48
2.3.3 選擇結(jié)構(gòu) 49
2.3.4 循環(huán)結(jié)構(gòu) 51
2.4 函數(shù)與模塊 54
2.4.1 函數(shù)的使用 54
2.4.2 函數(shù)的參數(shù)傳遞 55
2.4.3 全局變量與局部變量 57
2.4.4 匿名函數(shù) 58
2.4.5 模塊 59
2.5 文件 60
2.5.1 文件的打開與關(guān)閉 60
2.5.2 文件的讀取與寫入 62
2.5.3 文件的定位 63
2.6 本章小結(jié) 63
2.7 習題 64
第3章 大數(shù)據(jù)采集
3.1 大數(shù)據(jù)采集概述 65
3.1.1 大數(shù)據(jù)采集的概念 65
3.1.2 大數(shù)據(jù)采集的數(shù)據(jù)源 66
3.1.3 大數(shù)據(jù)采集方法 67
3.1.4 大數(shù)據(jù)采集平臺 69
3.2 網(wǎng)絡(luò)爬蟲技術(shù) 71
3.2.1 網(wǎng)絡(luò)爬蟲概述 72
3.2.2 常用網(wǎng)絡(luò)爬蟲方法 72
3.2.3 網(wǎng)頁數(shù)據(jù)采集的實現(xiàn) 75
3.2.4 常用網(wǎng)絡(luò)爬蟲工具 78
3.2.5 電影評論爬取 82
3.3 數(shù)據(jù)抽取技術(shù) 85
3.3.1 數(shù)據(jù)抽取概述 85
3.3.2 Kettle簡介與其安裝 86
3.3.3 文本數(shù)據(jù)抽取 87
3.3.4 網(wǎng)頁數(shù)據(jù)抽取 89
3.4 案例:網(wǎng)絡(luò)租房信息采集 91
3.4.1 網(wǎng)絡(luò)爬蟲采集數(shù)據(jù) 91
3.4.2 抽取租房信息 94
3.5 本章小結(jié) 96
3.6 習題 96
第4章 大數(shù)據(jù)預(yù)處理技術(shù)
4.1 數(shù)據(jù)預(yù)處理概述 97
4.1.1 數(shù)據(jù)質(zhì)量 97
4.1.2 數(shù)據(jù)預(yù)處理的主要任務(wù) 99
4.2 數(shù)據(jù)清洗 99
4.2.1 缺失值處理方法 99
4.2.2 噪聲數(shù)據(jù)處理方法 101
4.2.3 冗余數(shù)據(jù)處理方法 105
4.2.4 數(shù)據(jù)格式與內(nèi)容處理方法 106
4.3 數(shù)據(jù)集成 106
4.3.1 實體識別問題 106
4.3.2 冗余問題 107
4.3.3 數(shù)據(jù)值沖突的檢測與處理 109
4.4 數(shù)據(jù)變換 110
4.4.1 數(shù)據(jù)規(guī)范化 110
4.4.2 通過離散化變換數(shù)據(jù) 112
4.5 數(shù)據(jù)歸約 113
4.5.1 過濾法 114
4.5.2 包裝法 115
4.5.3 嵌入法 116
4.6 數(shù)據(jù)脫敏 117
4.6.1 數(shù)據(jù)脫敏類型 117
4.6.2 數(shù)據(jù)脫敏方法 118
4.7 案例:汽車行駛工況數(shù)據(jù)預(yù)處理 119
4.7.1 案例背景 119
4.7.2 數(shù)據(jù)描述 119
4.7.3 數(shù)據(jù)預(yù)處理 120
4.8 本章小結(jié) 124
4.9 習題 125
第5章 Excel數(shù)據(jù)獲取與預(yù)處理
5.1 Excel數(shù)據(jù)獲取 126
5.1.1 獲取文本數(shù)據(jù) 126
5.1.2 獲取網(wǎng)站數(shù)據(jù) 128
5.1.3 獲取數(shù)據(jù)庫中的數(shù)據(jù) 130
5.2 Excel數(shù)據(jù)清洗與轉(zhuǎn)換 132
5.2.1 常用數(shù)據(jù)分析函數(shù) 132
5.2.2 刪除重復行 136
5.2.3 文本查找與替換 137
5.2.4 字符串截取 139
5.2.5 數(shù)據(jù)的轉(zhuǎn)置 140
5.2.6 數(shù)據(jù)的查詢和引用 140
5.2.7 字母與數(shù)字的轉(zhuǎn)換 142
5.3 Excel數(shù)據(jù)抽取與合并 143
5.3.1 值的抽取 144
5.3.2 數(shù)據(jù)合并 146
5.3.3 字段合并 147
5.4 案例:房價行情的對比分析 148
5.4.1 數(shù)據(jù)獲取 148
5.4.2 數(shù)據(jù)預(yù)處理與分析 149
5.5 本章小結(jié) 151
5.6 習題 151
第6章 Python數(shù)據(jù)預(yù)處理
6.1 Python數(shù)據(jù)預(yù)處理基礎(chǔ) 153
6.1.1 科學計算庫NumPy 153
6.1.2 數(shù)據(jù)分析庫pandas 160
6.2 數(shù)據(jù)的分組、分割、合并和變形 168
6.2.1 數(shù)據(jù)分組 168
6.2.2 數(shù)據(jù)分割 171
6.2.3 數(shù)據(jù)合并 172
6.2.4 數(shù)據(jù)變形 175
6.3 缺失值、異常值和重復值處理 177
6.3.1 缺失值處理 177
6.3.2 異常值處理 181
6.3.3 重復值處理 185
6.4 時間序列數(shù)據(jù)處理 185
6.4.1 時間序列的基本操作 186
6.4.2 固定頻率的時間序列 187
6.4.3 時間周期及其計算 188
6.5 文本數(shù)據(jù)分析 189
6.5.1 字符串處理方法 189
6.5.2 文本數(shù)據(jù)分析工具 191
6.5.3 正則表達式 194
6.5.4 文本預(yù)處理 196
6.6 案例:IMDb5000電影數(shù)據(jù)預(yù)處理 199
6.6.1 數(shù)據(jù)分析及代碼實現(xiàn) 199
6.6.2 完整代碼 201
6.7 本章小結(jié) 203
6.8 習題 203
第7章 數(shù)據(jù)可視化技術(shù)
7.1 數(shù)據(jù)可視化概述 205
7.1.1 數(shù)據(jù)可視化的定義 205
7.1.2 數(shù)據(jù)可視化的發(fā)展歷程 206
7.1.3 數(shù)據(jù)可視化的作用 211
7.2 數(shù)據(jù)可視化的理論基礎(chǔ) 212
7.2.1 數(shù)據(jù)可視化的流程 212
7.2.2 數(shù)據(jù)可視化的設(shè)計要素 213
7.2.3 數(shù)據(jù)可視化的基礎(chǔ)圖表 216
7.2.4 數(shù)據(jù)可視化的常見工具 219
7.3 Python數(shù)據(jù)可視化方法 221
7.3.1 Matplotlib繪制基礎(chǔ)圖表 221
7.3.2 seaborn繪制統(tǒng)計圖 229
7.3.3 wordcloud繪制詞云圖 254
7.3.4 NetworkX繪制網(wǎng)絡(luò)圖 257
7.3.5 案例:重慶公開庭審數(shù)據(jù)可視化 260
7.4 pyecharts數(shù)據(jù)可視化方法 265
7.4.1 pyecharts簡介 265
7.4.2 pyecharts應(yīng)用 266
7.4.3 案例:2020年東京奧運會獎牌看板 267
7.5 本章小結(jié) 278
7.6 習題 279
參考文獻 280