數(shù)據(jù)科學(xué)概論——從概念到應(yīng)用
定 價:79 元
- 作者:薛薇
- 出版時間:2022/8/1
- ISBN:9787121441332
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:448
- 紙張:
- 版次:01
- 開本:16開
本書引導(dǎo)讀者從數(shù)據(jù)科學(xué)基本概念出發(fā),全面了解數(shù)據(jù)科學(xué)相關(guān)知識,掌握數(shù)據(jù)科學(xué)中數(shù)據(jù)處理的流程和方法。本書在理論上突出可讀性和完整性,力求兼具一定的廣度和深度;在實(shí)踐上強(qiáng)調(diào)對常用技術(shù)工具的操作性,力求體現(xiàn)數(shù)據(jù)科學(xué)應(yīng)用的多樣性和代表性。全書共12章,可分為三大部分:第1、2章是數(shù)據(jù)科學(xué)概述部分;第3~6章是數(shù)據(jù)科學(xué)理論基礎(chǔ)和重點(diǎn)工具部分;第7~12章是數(shù)據(jù)科學(xué)全流程的技術(shù)與方法部分(包括數(shù)據(jù)采集、數(shù)據(jù)存儲與管理、數(shù)據(jù)可視化、數(shù)據(jù)分析、數(shù)據(jù)安全與倫理,以及數(shù)據(jù)科學(xué)的應(yīng)用與案例)。登錄華信教育資源網(wǎng)(www.hxedu.com.cn)可下載本書涉及的案例與示例的全部代碼和數(shù)據(jù)集,以及各章PPT和教學(xué)大綱等資料。本書可作為高等院校數(shù)據(jù)科學(xué)相關(guān)專業(yè)的教學(xué)用書,也可作為數(shù)據(jù)科學(xué)相關(guān)研究從業(yè)人員的參考用書。
薛薇,工學(xué)碩士,經(jīng)濟(jì)學(xué)博士,中國人民大學(xué)應(yīng)用統(tǒng)計學(xué)科研究中心研究員,中國人民大學(xué)統(tǒng)計學(xué)院副教授。主要研究領(lǐng)域:機(jī)器學(xué)習(xí)和文本挖掘、復(fù)雜網(wǎng)絡(luò)建模等。關(guān)注統(tǒng)計和數(shù)據(jù)挖掘算法及軟件應(yīng)用。涉足企業(yè)客戶終身價值測算,基于文本挖掘的熱點(diǎn)事件主題提取和分類,金融、貿(mào)易等復(fù)雜網(wǎng)絡(luò)動態(tài)建模等方面。主要代表性教材:《SPSS統(tǒng)計分析方法及應(yīng)用》《R語言數(shù)據(jù)挖掘方法及應(yīng)用》《R語言:大數(shù)據(jù)分析中的統(tǒng)計方法及應(yīng)用》《SPSS Modeler數(shù)據(jù)挖掘方法及應(yīng)用》《數(shù)據(jù)科學(xué)概論——從概念到應(yīng)用》等。
目錄
第1章 數(shù)據(jù)與信息概述 1
1.1 數(shù)據(jù)的概念、特征和作用 1
1.1.1 數(shù)據(jù)的概念 1
1.1.2 數(shù)據(jù)的特征 2
1.1.3 數(shù)據(jù)的作用 3
1.2 數(shù)據(jù)的尺度與類型 3
1.2.1 定性數(shù)據(jù)和定量數(shù)據(jù) 4
1.2.2 離散數(shù)據(jù)和連續(xù)數(shù)據(jù) 5
1.2.3 結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù) 5
1.3 數(shù)據(jù)的表格化 8
1.3.1 個體數(shù)據(jù)的表格化 8
1.3.2 批量匯總數(shù)據(jù)的表格化 9
1.3.3 統(tǒng)計指標(biāo) 11
1.4 數(shù)據(jù)的數(shù)字化 12
1.4.1 二進(jìn)制與數(shù)字化 12
1.4.2 文本的數(shù)字化 13
1.4.3 數(shù)字的數(shù)字化 15
1.4.4 多媒體的數(shù)字化 17
1.4.5 數(shù)字化轉(zhuǎn)型與數(shù)字化經(jīng)濟(jì) 18
1.5 信息與信息熵 19
1.5.1 信息熵:不確定性的度量 19
1.5.2 信息增益:不確定性減少的度量 20
第2章 數(shù)據(jù)科學(xué)概述 22
2.1 數(shù)據(jù)科學(xué)的科學(xué)觀 22
2.1.1 從科學(xué)高度看數(shù)據(jù)科學(xué) 22
2.1.2 通過案例初識數(shù)據(jù)科學(xué) 23
2.2 數(shù)據(jù)科學(xué)概念 25
2.2.1 數(shù)據(jù)科學(xué)產(chǎn)生的重大技術(shù)背景 25
2.2.2 數(shù)據(jù)科學(xué)產(chǎn)生的典型應(yīng)用背景 25
2.2.3 數(shù)據(jù)科學(xué)的定義 27
2.3 歷史觀察:探討數(shù)據(jù)科學(xué)的發(fā)展歷程 27
2.3.1 古代:從結(jié)繩記事到阿拉伯?dāng)?shù)字 27
2.3.2 古典:政治算術(shù)和國勢學(xué) 29
2.3.3 近代:隨機(jī)現(xiàn)象、概率論與數(shù)理統(tǒng)計 29
2.3.4 現(xiàn)代:抽樣與推斷統(tǒng)計 31
2.3.5 計算機(jī)時代:技術(shù)革命帶來的繁榮 32
2.3.6 大數(shù)據(jù)時代:奠定數(shù)據(jù)科學(xué)基礎(chǔ) 33
2.4 數(shù)據(jù)世界:探討數(shù)據(jù)科學(xué)的對象 37
2.4.1 數(shù)據(jù)世界和數(shù)據(jù)科學(xué) 37
2.4.2 數(shù)據(jù)世界和數(shù)字孿生 38
2.5 DIKW模型:探討數(shù)據(jù)科學(xué)中的若干基本概念 39
2.5.1 DIKW模型 39
2.5.2 從DIKW模型看數(shù)據(jù)科學(xué) 41
2.6 維恩圖:探討數(shù)據(jù)科學(xué)的學(xué)科交叉性 42
2.6.1 文獻(xiàn)中的數(shù)據(jù)科學(xué)維恩圖 42
2.6.2 數(shù)據(jù)科學(xué)學(xué)科交叉性的總結(jié) 43
2.7 從數(shù)據(jù)到模型:探討數(shù)據(jù)科學(xué)的一般方法 45
2.7.1 反問題的方法 45
2.7.2 數(shù)據(jù)驅(qū)動的方法 46
2.7.3 模型化的方法 47
2.8 數(shù)據(jù)處理流程:探討數(shù)據(jù)科學(xué)方法論 53
2.8.1 傳統(tǒng)理念下的數(shù)據(jù)處理方法論 53
2.8.2 計算機(jī)時代的數(shù)據(jù)處理方法論 54
2.8.3 大數(shù)據(jù)時代的數(shù)據(jù)處理方法論 56
2.9 三維視角:總覽數(shù)據(jù)科學(xué) 58
2.9.1 從三維視角看數(shù)據(jù)科學(xué) 58
2.9.2 理論方法維度 58
2.9.3 處理流程維度 60
2.9.4 應(yīng)用領(lǐng)域維度 60
第3章 數(shù)據(jù)科學(xué)中的計算機(jī)基礎(chǔ) 61
3.1 計算機(jī)系統(tǒng)概述 61
3.1.1 計算機(jī)的發(fā)展 62
3.1.2 計算機(jī)的種類 62
3.2 計算機(jī)硬件 63
3.2.1 計算機(jī)硬件的組成 63
3.2.2 計算機(jī)硬件的工作原理 64
3.3 計算機(jī)軟件 65
3.3.1 操作系統(tǒng) 65
3.3.2 計算機(jī)語言 66
3.3.3 應(yīng)用軟件 68
3.4 計算機(jī)網(wǎng)絡(luò) 68
3.4.1 局域網(wǎng)、廣域網(wǎng)和因特網(wǎng) 69
3.4.2 計算機(jī)網(wǎng)絡(luò)的通信協(xié)議 71
3.5 計算機(jī)應(yīng)用的技術(shù)模式 72
3.5.1 主機(jī)/終端模式 72
3.5.2 客戶機(jī)/服務(wù)器模式 73
3.5.3 瀏覽器/服務(wù)器模式 74
3.5.4 云計算模式 75
3.5.5 對等模式 78
3.6 計算機(jī)應(yīng)用 79
3.6.1 科學(xué)計算 79
3.6.2 數(shù)據(jù)處理與大數(shù)據(jù) 80
3.6.3 人工智能 81
3.6.4 過程控制 85
第4章 數(shù)據(jù)科學(xué)中的數(shù)學(xué)與統(tǒng)計學(xué)基礎(chǔ) 86
4.1 微積分與數(shù)據(jù)科學(xué)應(yīng)用 87
4.1.1 微積分的產(chǎn)生背景 87
4.1.2 微積分的基本思想方法 88
4.1.3 梯度下降法及數(shù)據(jù)科學(xué)應(yīng)用示例 90
4.2 線性代數(shù)與數(shù)據(jù)科學(xué)應(yīng)用 93
4.2.1 向量與向量空間及應(yīng)用示例 93
4.2.2 矩陣與線性變換及應(yīng)用示例 95
4.2.3 特征值與奇異值及數(shù)據(jù)科學(xué)應(yīng)用示例 99
4.3 統(tǒng)計學(xué)與數(shù)據(jù)科學(xué)應(yīng)用 103
4.3.1 描述統(tǒng)計要點(diǎn) 104
4.3.2 概率與概率分布要點(diǎn) 107
4.3.3 推斷統(tǒng)計和多元統(tǒng)計分析要點(diǎn) 108
4.3.4 貝葉斯思維在數(shù)據(jù)科學(xué)中的應(yīng)用 109
4.4 集合論與數(shù)據(jù)科學(xué)的應(yīng)用 113
4.4.1 集合論與羅素悖論 113
4.4.2 粗糙集與數(shù)據(jù)科學(xué)應(yīng)用示例 115
4.5 圖論與數(shù)據(jù)科學(xué)的應(yīng)用 120
4.5.1 歐拉和哥尼斯堡七橋問題 120
4.5.2 圖論的發(fā)展沿革 121
4.5.3 圖論與數(shù)據(jù)科學(xué)應(yīng)用示例 122
第5章 數(shù)據(jù)科學(xué)中的SQL基礎(chǔ) 125
5.1 SQL概述 125
5.1.1 SQL的優(yōu)點(diǎn) 125
5.1.2 MySQL和SQL入門 127
5.2 SQL的數(shù)據(jù)定義和應(yīng)用 130
5.2.1 SQL數(shù)據(jù)定義語句 131
5.2.2 SQL數(shù)據(jù)定義應(yīng)用 133
5.3 SQL的數(shù)據(jù)操縱和應(yīng)用 137
5.3.1 SQL數(shù)據(jù)操縱語句 137
5.3.2 SQL數(shù)據(jù)操縱應(yīng)用 137
5.4 SQL的數(shù)據(jù)查詢 139
5.4.1 SELECT語句的簡單應(yīng)用 139
5.4.2 SELECT語句的進(jìn)階應(yīng)用 145
5.4.3 SELECT語句的其他應(yīng)用 150
5.5 MySQL的系統(tǒng)管理 151
5.5.1 MySQL的用戶管理 151
5.5.2 MySQL的權(quán)限管理 152
5.5.3 MySQL的事務(wù)管理 153
5.5.4 MySQL的文件存儲和日志管理 155
5.5.5 MySQL的客戶端數(shù)據(jù)庫管理工具Navicat 158
第6章 數(shù)據(jù)科學(xué)中的Python基礎(chǔ) 160
6.1 Python概述 160
6.1.1 Python的特點(diǎn) 160
6.1.2 Python的安裝和啟動 161
6.1.3 第一個Python程序與幫助 162
6.2 Python基礎(chǔ) 164
6.2.1 Python的基本數(shù)據(jù)類型和組織 164
6.2.2 Python的程序結(jié)構(gòu)和流程控制 169
6.2.3 異常處理結(jié)構(gòu) 173
6.3 Python語言進(jìn)階 176
6.3.1 面向?qū)ο蟪绦蛟O(shè)計 176
6.3.2 模塊與包 177
6.3.3 Python綜合:chaos混沌態(tài) 178
6.4 NumPy入門 181
6.4.1 NumPy數(shù)組的創(chuàng)建 182
6.4.2 NumPy數(shù)組的訪問 185
6.4.3 NumPy數(shù)組的計算 186
6.5 Pandas入門 190
6.5.1 Pandas的數(shù)據(jù)組織 191
6.5.2 Pandas的數(shù)據(jù)加工處理 194
6.6 Matplotlib入門 196
6.6.1 Matplotlib的基本繪圖 196
6.6.2 Matplotlib的參數(shù)配置 198
6.6.3 Matplotlib的子圖設(shè)置 200
6.6.4 Matplotlib的常見統(tǒng)計圖 201
6.7 Python綜合應(yīng)用示例:對空氣質(zhì)量監(jiān)測數(shù)據(jù)的分析 206
6.7.1 空氣質(zhì)量數(shù)據(jù)的預(yù)處理 207
6.7.2 空氣質(zhì)量數(shù)據(jù)的基本分析 209
6.7.3 空氣質(zhì)量數(shù)據(jù)的可視化 212
第7章 數(shù)據(jù)采集 217
7.1 傳統(tǒng)數(shù)據(jù)采集方式和技術(shù) 218
7.1.1 普查和統(tǒng)計報表制度 218
7.1.2 抽樣調(diào)查和問卷調(diào)查 220
7.1.3 觀察法和實(shí)驗法 221
7.1.4 傳統(tǒng)數(shù)據(jù)采集技術(shù) 224
7.2 互聯(lián)網(wǎng)數(shù)據(jù)采集 226
7.2.1 互聯(lián)網(wǎng)數(shù)據(jù)采集概述 227
7.2.2 網(wǎng)站運(yùn)營數(shù)據(jù)庫和數(shù)據(jù)分析及采集 227
7.2.3 網(wǎng)頁埋點(diǎn)和數(shù)據(jù)采集 229
7.2.4 開放數(shù)據(jù)庫和數(shù)據(jù)采集 231
7.2.5 搜索引擎和數(shù)據(jù)采集 233
7.2.6 網(wǎng)頁爬蟲和數(shù)據(jù)采集 236
7.3 物聯(lián)網(wǎng)數(shù)據(jù)采集 240
7.3.1 物聯(lián)網(wǎng)數(shù)據(jù)采集概述 240
7.3.2 傳感器和數(shù)據(jù)采集 241
7.3.3 衛(wèi)星通信和數(shù)據(jù)采集 242
7.3.4 射頻識別技術(shù)、條形碼和數(shù)據(jù)采集 244
7.4 數(shù)據(jù)采集與人工智能 245
7.4.1 數(shù)據(jù)標(biāo)注與數(shù)據(jù)采集 246
7.4.2 文本數(shù)據(jù)采集和挖掘 248
7.4.3 圖像數(shù)據(jù)采集和識別 249
第8章 數(shù)據(jù)存儲與管理 251
8.1 數(shù)據(jù)文件和數(shù)據(jù)庫系統(tǒng) 251
8.1.1 數(shù)據(jù)文件 251
8.1.2 數(shù)據(jù)庫系統(tǒng)的概念 254
8.1.3 關(guān)系型數(shù)據(jù)庫系統(tǒng)和聯(lián)機(jī)事務(wù)處理 255
8.1.4 數(shù)據(jù)庫索引技術(shù) 257
8.2 數(shù)據(jù)倉庫系統(tǒng) 260
8.2.1 數(shù)據(jù)倉庫的概念 260
8.2.2 數(shù)據(jù)倉庫系統(tǒng)的基本結(jié)構(gòu) 261
8.2.3 聯(lián)機(jī)分析處理 264
8.2.4 知識發(fā)現(xiàn)與商業(yè)智能 266
8.3 數(shù)據(jù)庫系統(tǒng)的技術(shù)發(fā)展 268
8.3.1 并行數(shù)據(jù)庫技術(shù) 269
8.3.2 分布式數(shù)據(jù)庫技術(shù) 271
8.3.3 NoSQL數(shù)據(jù)庫系統(tǒng)和NewSQL數(shù)據(jù)庫系統(tǒng) 272
8.4 Hadoop大數(shù)據(jù)系統(tǒng) 275
8.4.1 什么是Hadoop 275
8.4.2 HDFS 276
8.4.3 MapReduce計算框架 279
8.4.4 Hadoop大數(shù)據(jù)生態(tài)系統(tǒng) 280
8.5 Spark大數(shù)據(jù)系統(tǒng) 286
8.5.1 什么是Spark 287
8.5.2 Spark大數(shù)據(jù)生態(tài)系統(tǒng) 288
8.5.3 Spark大數(shù)據(jù)平臺databricks應(yīng)用 290
8.6 Flink大數(shù)據(jù)系統(tǒng) 294
8.6.1 流數(shù)據(jù) 294
8.6.2 Flink大數(shù)據(jù)生態(tài)系統(tǒng) 297
8.7 數(shù)據(jù)湖系統(tǒng) 300
8.7.1 什么是數(shù)據(jù)湖系統(tǒng) 300
8.7.2 數(shù)據(jù)湖系統(tǒng)的基本功能 301
8.7.3 典型的數(shù)據(jù)湖系統(tǒng) 302
第9章 數(shù)據(jù)可視化 305
9.1 數(shù)據(jù)可視化概述 305
9.1.1 數(shù)據(jù)可視化起源和發(fā)展 305
9.1.2 數(shù)據(jù)可視化元素 307
9.1.3 數(shù)據(jù)可視化步驟和原則 308
9.2 數(shù)據(jù)可視化一般方法 309
9.2.1 電子地圖及地圖圖表 309
9.2.2 高維數(shù)據(jù)的可視化展現(xiàn) 312
9.3 數(shù)據(jù)可視化實(shí)現(xiàn)和Tableau應(yīng)用 315
9.3.1 數(shù)據(jù)可視化實(shí)現(xiàn)方式 316
9.3.2 Tableau及其應(yīng)用 317
9.4 數(shù)據(jù)可視化的新發(fā)展 325
9.4.1 計算機(jī)圖形學(xué) 326
9.4.2 虛擬現(xiàn)實(shí)及相關(guān)技術(shù) 327
9.4.3 增強(qiáng)現(xiàn)實(shí)技術(shù) 329
第10章 數(shù)據(jù)分析 332
10.1 數(shù)據(jù)分析方法、目標(biāo)及軟件工具 332
10.1.1 數(shù)據(jù)分析方法 332
10.1.2 數(shù)據(jù)分析目標(biāo) 337
10.1.3 數(shù)據(jù)分析軟件工具:sklearn簡介 338
10.2 數(shù)據(jù)預(yù)處理 340
10.2.1 數(shù)據(jù)標(biāo)準(zhǔn)化處理 340
10.2.2 缺失值處理 342
10.2.3 特征選擇與特征提取 344
10.3 經(jīng)典聚類算法 347
10.3.1 聚類分析概述 347
10.3.2 層次聚類 349
10.3.3 K-均值聚類 351
10.3.4 DBSCAN聚類 353
10.3.5 聚類分析應(yīng)用實(shí)例 355
10.4 數(shù)據(jù)預(yù)測:經(jīng)典統(tǒng)計方法 360
10.4.1 數(shù)據(jù)預(yù)測中的一般問題 360
10.4.2 一般線性回歸分析 362
10.4.3 二項邏輯回歸分析 365
10.4.4 數(shù)據(jù)預(yù)測應(yīng)用實(shí)例 367
10.5 數(shù)據(jù)預(yù)測:經(jīng)典機(jī)器學(xué)習(xí)方法 370
10.5.1 K-近鄰分析 370
10.5.2 決策樹算法 373
10.5.3 支持向量機(jī) 377
10.5.4 分類算法的對比 379
第11章 數(shù)據(jù)安全與倫理 384
11.1 數(shù)據(jù)安全概述 384
11.1.1 什么是數(shù)據(jù)安全 384
11.1.2 數(shù)據(jù)安全的分類 385
11.2 數(shù)據(jù)安全體系 388
11.2.1 數(shù)據(jù)安全管理系統(tǒng) 388
11.2.2 數(shù)據(jù)安全法律法規(guī)系統(tǒng) 389
11.2.3 數(shù)據(jù)安全技術(shù)系統(tǒng) 391
11.3 傳統(tǒng)數(shù)據(jù)安全技術(shù) 393
11.3.1 數(shù)據(jù)加密 393
11.3.2 數(shù)據(jù)脫敏 394
11.4 大數(shù)據(jù)時代的數(shù)據(jù)安全技術(shù) 396
11.4.1 區(qū)塊鏈 396
11.4.2 聯(lián)邦學(xué)習(xí) 398
11.5 數(shù)據(jù)倫理和算法倫理 402
11.5.1 數(shù)據(jù)倫理與案例 403
11.5.2 算法倫理與案例 405
第12章 數(shù)據(jù)科學(xué)的應(yīng)用與案例 408
12.1 數(shù)據(jù)科學(xué)的商業(yè)應(yīng)用:RFM分析與客戶終身價值 408
12.1.1 客戶購買行為的RFM分析 408
12.1.2 客戶終身價值 409
12.1.3 客戶終身價值的計算和應(yīng)用案例 411
12.1.4 應(yīng)用啟示:理解業(yè)務(wù)才能做好分析 415
12.2 數(shù)據(jù)科學(xué)的海關(guān)應(yīng)用:抽樣方案升級 416
12.2.1 海關(guān)稽查案例 417
12.2.2 海關(guān)稽查抽樣的數(shù)據(jù)模擬 418
12.2.3 應(yīng)用啟示:數(shù)據(jù)治理體系 424
12.3 數(shù)據(jù)科學(xué)的企業(yè)應(yīng)用:數(shù)字化轉(zhuǎn)型 426
12.3.1 數(shù)字化轉(zhuǎn)型概述 426
12.3.2 數(shù)字化轉(zhuǎn)型案例 427
12.3.3 應(yīng)用啟示:數(shù)字化轉(zhuǎn)型的評估模型 430
附錄A MySQL函數(shù)列表 432