數(shù)據(jù)科學(xué)技術(shù)與應(yīng)用——基于Python實(shí)現(xiàn)(第2版)
定 價(jià):39 元
- 作者:宋暉
- 出版時(shí)間:2021/7/1
- ISBN:9787121415159
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274;TP311.561
- 頁碼:196
- 紙張:
- 版次:01
- 開本:16開
本書內(nèi)容涵蓋數(shù)據(jù)科學(xué)和大數(shù)據(jù)技術(shù)的基礎(chǔ)知識(shí),圍繞數(shù)據(jù)科學(xué)的工作流程,詳細(xì)介紹了從數(shù)據(jù)中獲取知識(shí)的方法和技術(shù),包括數(shù)據(jù)采集、數(shù)據(jù)整理與探索、數(shù)據(jù)可視化和數(shù)據(jù)建模預(yù)測(cè)等。本書介紹了人工智能前沿領(lǐng)域中文本、圖像、語音、序列數(shù)據(jù)的主流分析處理方法,同時(shí)也闡述了基于大數(shù)據(jù)分布式計(jì)算框架處理海量數(shù)據(jù)的平臺(tái)和工具。全書設(shè)計(jì)收集了多個(gè)數(shù)據(jù)應(yīng)用案例,采用Python語言及相關(guān)科學(xué)計(jì)算工具包實(shí)現(xiàn)數(shù)據(jù)分析過程,幫助讀者通過實(shí)際案例培養(yǎng)數(shù)據(jù)思維,掌握數(shù)據(jù)分析的實(shí)踐技能,運(yùn)用統(tǒng)計(jì)學(xué)、人工智能等先進(jìn)技術(shù)解決實(shí)際問題。 本書通俗易懂、實(shí)例豐富、技術(shù)先進(jìn),配備豐富的教學(xué)資源,可作為各類高等院校數(shù)據(jù)科學(xué)、大數(shù)據(jù)技術(shù)的入門教材,以及計(jì)算機(jī)基礎(chǔ)教學(xué)較高層次課程的教材,也可以作為數(shù)據(jù)科學(xué)實(shí)踐的技術(shù)參考書。
宋暉博士、教授,長(zhǎng)期從事Web數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和智能信息處理方面的研究和教學(xué)工作,主持完成多項(xiàng)數(shù)據(jù)挖掘、智能分析和信息系統(tǒng)的研發(fā),在數(shù)據(jù)科學(xué)方向有深厚的理論基礎(chǔ)以及豐富的實(shí)踐經(jīng)驗(yàn)。
目 錄
第1章 數(shù)據(jù)科學(xué)基礎(chǔ) (1)
1.1 數(shù)據(jù)科學(xué)概述 (1)
1.1.1 數(shù)據(jù)的力量 (1)
1.1.2 數(shù)據(jù)科學(xué)的知識(shí)結(jié)構(gòu) (2)
1.1.3 數(shù)據(jù)科學(xué)的工作流程 (4)
1.2 數(shù)據(jù)科學(xué)的關(guān)鍵技術(shù) (5)
1.2.1 數(shù)據(jù)采集 (5)
1.2.2 數(shù)據(jù)預(yù)處理 (7)
1.2.3 數(shù)據(jù)存儲(chǔ)與管理 (8)
1.2.4 數(shù)據(jù)分析 (9)
1.3 Python數(shù)據(jù)分析工具 (9)
1.3.1 科學(xué)計(jì)算集成環(huán)境 (9)
1.3.2 Python編譯環(huán)境 (10)
1.3.3 Jupyter Notebook (11)
1.4 Python語言基礎(chǔ) (12)
1.4.1 常用數(shù)據(jù)類型 (12)
1.4.2 流程控制 (14)
1.4.3 函數(shù)和方法庫 (16)
綜合練習(xí)題 (17)
第2章 多維數(shù)據(jù)結(jié)構(gòu)與運(yùn)算 (18)
2.1 多維數(shù)組對(duì)象 (18)
2.1.1 多維數(shù)組(張量) (18)
2.1.2 一維數(shù)組對(duì)象 (19)
2.1.3 二維數(shù)組對(duì)象 (21)
2.1.4 創(chuàng)建多維數(shù)組的常用函數(shù) (23)
2.2 多維數(shù)組運(yùn)算 (25)
2.2.1 基本算術(shù)運(yùn)算 (26)
2.2.2 函數(shù)和矩陣運(yùn)算 (27)
2.2.3 隨機(jī)數(shù)組生成函數(shù) (29)
2.3 案例:隨機(jī)游走軌跡模擬 (30)
綜合練習(xí)題 (33)
第3章 數(shù)據(jù)匯總與統(tǒng)計(jì) (34)
3.1 統(tǒng)計(jì)的基本概念 (34)
3.1.1 統(tǒng)計(jì)的含義 (34)
3.1.2 常用統(tǒng)計(jì)量 (35)
3.2 pandas數(shù)據(jù)結(jié)構(gòu) (37)
3.2.1 Series對(duì)象 (37)
3.2.2 Series對(duì)象的數(shù)據(jù)訪問 (38)
3.2.3 DataFrame對(duì)象 (40)
3.2.4 DataFrame對(duì)象的數(shù)據(jù)訪問 (41)
3.3 數(shù)據(jù)文件的讀/寫 (45)
3.3.1 讀/寫CSV文件和TXT文件 (45)
3.3.2 讀取Excel文件 (48)
3.4 數(shù)據(jù)清洗 (49)
3.4.1 缺失數(shù)據(jù)處理 (49)
3.4.2 去除重復(fù)數(shù)據(jù) (52)
3.5 數(shù)據(jù)規(guī)整化 (52)
3.5.1 數(shù)據(jù)合并 (52)
3.5.2 數(shù)據(jù)排序 (55)
3.6 統(tǒng)計(jì)分析 (56)
3.6.1 通用函數(shù)與運(yùn)算 (57)
3.6.2 統(tǒng)計(jì)函數(shù) (57)
3.6.3 相關(guān)性分析 (60)
3.6.4 案例:?jiǎn)柧碚{(diào)查反饋表分析 (60)
綜合練習(xí)題 (63)
第4章 數(shù)據(jù)可視化 (64)
4.1 Python繪圖基礎(chǔ) (64)
4.1.1 認(rèn)識(shí)基本圖形 (64)
4.1.2 pandas快速繪圖 (64)
4.1.3 Matplotlib精細(xì)繪圖 (66)
4.2 可視化數(shù)據(jù)探索 (71)
4.2.1 繪制常用圖形 (71)
4.2.2 使用pyecharts繪制交互數(shù)據(jù)圖 (81)
綜合練習(xí)題 (85)
第5章 機(jī)器學(xué)習(xí)建模分析 (88)
5.1 機(jī)器學(xué)習(xí)概述 (88)
5.1.1 機(jī)器學(xué)習(xí)與人工智能 (88)
5.1.2 Python機(jī)器學(xué)習(xí)方法庫 (90)
5.2 回歸分析 (90)
5.2.1 回歸分析原理 (90)
5.2.2 回歸分析實(shí)現(xiàn) (91)
5.2.3 回歸分析性能評(píng)估 (94)
5.3 分類分析 (96)
5.3.1 分類學(xué)習(xí)原理 (96)
5.3.2 決策樹 (98)
5.3.3 支持向量機(jī) (102)
5.4 聚類分析 (106)
5.4.1 聚類任務(wù) (106)
5.4.2 K-means算法 (107)
5.4.3 聚類方法的性能評(píng)估 (110)
5.5 數(shù)據(jù)降維 (112)
5.5.1 降維分析方法 (112)
5.5.2 主成分分析 (113)
5.6 集成學(xué)習(xí) (115)
5.6.1 隨機(jī)森林算法的基本原理 (116)
5.6.2 梯度提升機(jī)算法的基本原理 (116)
5.6.3 集成學(xué)習(xí)建模分析 (117)
綜合練習(xí)題 (119)
第6章 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)建模分析 (120)
6.1 神經(jīng)網(wǎng)絡(luò)概述 (120)
6.1.1 神經(jīng)元與感知器 (120)
6.1.2 神經(jīng)網(wǎng)絡(luò)模型 (121)
6.1.3 神經(jīng)網(wǎng)絡(luò)分類實(shí)現(xiàn) (122)
6.2 深度學(xué)習(xí) (125)
6.2.1 深度學(xué)習(xí)的基本原理 (125)
6.2.2 深度學(xué)習(xí)框架Keras (126)
6.2.3 深度學(xué)習(xí)建模分析實(shí)例 (128)
綜合練習(xí)題 (130)
第7章 文本數(shù)據(jù)處理 (131)
7.1 文本處理概述 (131)
7.1.1 文本處理的常見任務(wù) (131)
7.1.2 文本處理的基本步驟 (132)
7.2 中文文本處理 (134)
7.2.1 中文分詞 (134)
7.2.2 詞性標(biāo)注 (135)
7.2.3 特征提取 (136)
7.3 實(shí)例:垃圾郵件的識(shí)別 (140)
7.3.1 數(shù)據(jù)來源 (140)
7.3.2 基于詞袋模型識(shí)別垃圾郵件 (141)
7.3.3 基于詞向量模型識(shí)別垃圾郵件 (143)
綜合練習(xí)題 (146)
第8章 圖像數(shù)據(jù)處理 (147)
8.1 數(shù)字圖像概述 (147)
8.1.1 數(shù)字圖像 (147)
8.1.2 數(shù)字圖像類型 (147)
8.1.3 數(shù)字圖像處理 (148)
8.2 Python圖像處理 (149)
8.2.1 Python圖像處理庫 (149)
8.2.2 圖像的基本操作 (150)
8.3 案例:深度學(xué)習(xí)實(shí)現(xiàn)圖像分類 (152)
8.3.1 卷積神經(jīng)網(wǎng)絡(luò) (152)
8.3.2 基于Keras實(shí)現(xiàn)圖像分類 (153)
綜合練習(xí)題 (157)
第9章 時(shí)序數(shù)據(jù)與語音處理 (158)
9.1 時(shí)序數(shù)據(jù)概述 (158)
9.1.1 時(shí)序數(shù)據(jù)特性 (158)
9.1.2 時(shí)序數(shù)據(jù)特征的提取 (159)
9.2 時(shí)序數(shù)據(jù)分析方法 (161)
9.2.1 時(shí)序數(shù)據(jù)分析過程 (161)
9.2.2 溫度預(yù)測(cè)實(shí)例 (162)
9.3 語音識(shí)別技術(shù) (166)
9.3.1 語音識(shí)別技術(shù)簡(jiǎn)介 (166)
9.3.2 語音識(shí)別中的時(shí)序數(shù)據(jù)處理 (167)
9.3.3 在線語音識(shí)別實(shí)例 (169)
綜合練習(xí)題 (171)
第10章 大數(shù)據(jù)技術(shù) (172)
10.1 大數(shù)據(jù)概述 (172)
10.1.1 大數(shù)據(jù)的特點(diǎn) (172)
10.1.2 大數(shù)據(jù)技術(shù) (174)
10.1.3 大數(shù)據(jù)基礎(chǔ)設(shè)施 (175)
10.2 分布式計(jì)算框架 (177)
10.2.1 Hadoop概述 (178)
10.2.2 MapReduce分布式計(jì)算 (180)
10.2.3 Spark分布式計(jì)算 (182)
10.2.4 Spark分布式計(jì)算 (183)
10.3 分布式建模分析工具 (185)
10.3.1 Hadoop Mahout (185)
10.3.2 Spark MLlib (186)
10.3.3 Spark MLlib建模分析 (187)
綜合練習(xí)題 (188)
參考資料 (189)