Python數(shù)據(jù)科學(xué)實(shí)戰(zhàn)
定 價(jià):178 元
叢書(shū)名:人工智能與大數(shù)據(jù)系列
- 作者:(美)Nathan George(內(nèi)森?喬治)
- 出版時(shí)間:2023/7/1
- ISBN:9787121459429
- 出 版 社:電子工業(yè)出版社
- 中圖法分類(lèi):TP311.561
- 頁(yè)碼:548
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
數(shù)據(jù)科學(xué)如今已經(jīng)深入到我們生活中的各個(gè)領(lǐng)域,行業(yè)從業(yè)者都應(yīng)該懂得一些數(shù)據(jù)科學(xué)的知識(shí)。那么如何能夠快速掌握這門(mén)流行的技術(shù)呢?通過(guò)系統(tǒng)地學(xué)習(xí)本書(shū)和動(dòng)手實(shí)踐,可以滿足這個(gè)需求。本書(shū)共六個(gè)部分,用通俗的語(yǔ)言和生動(dòng)的例子為讀者展現(xiàn)數(shù)據(jù)科學(xué)的魅力。第一部分介紹了數(shù)據(jù)科學(xué)的基本知識(shí),讓讀者可以輕松了解它的流程與原理。第二部分,通過(guò)幾個(gè)例子為讀者介紹如何處理各種數(shù)據(jù),從電子表格到網(wǎng)絡(luò)抓取,涵蓋了工作中的常用數(shù)據(jù)處理方法。第三部分,使用通俗易懂的語(yǔ)言為讀者介紹數(shù)據(jù)科學(xué)中使用到的統(tǒng)計(jì)學(xué)知識(shí)。第四部分,通過(guò)示例介紹機(jī)器學(xué)習(xí)技術(shù),讓讀者可以根據(jù)以往的數(shù)據(jù)對(duì)未來(lái)進(jìn)行預(yù)測(cè)。在本書(shū)的后兩部分,為讀者介紹如何對(duì)文本進(jìn)行分析及制作生動(dòng)的報(bào)告,并討論了數(shù)據(jù)科學(xué)的未來(lái)發(fā)展趨勢(shì)。
Nathan George在科羅拉多州丹佛市的里吉斯大學(xué)(Regis University)擔(dān)任教授并講授了4年的數(shù)據(jù)科學(xué)課程。他擁有化學(xué)工程、LED照明用熒光粉和薄膜太陽(yáng)能電池方面的相關(guān)背景,并利用所學(xué)知識(shí)成為一名數(shù)據(jù)科學(xué)家。他為Regis、DataCamp和ManningliveProject創(chuàng)建了許多數(shù)據(jù)科學(xué)課程。Nathan還為在Udacity學(xué)習(xí)人工智能和機(jī)器學(xué)習(xí)的學(xué)生提供指導(dǎo)。他目前在瑞典斯德哥爾摩的一家金融科技公司Tink擔(dān)任數(shù)據(jù)科學(xué)家。
殷海英,從2013年底開(kāi)始在美國(guó)大學(xué)作為客座教授,主持?jǐn)?shù)據(jù)分析與數(shù)據(jù)科學(xué)項(xiàng)目的研究生研修班,截止2021年已經(jīng)開(kāi)辦近20期,培訓(xùn)來(lái)自世界多個(gè)國(guó)家的數(shù)百名碩士(含博士)研究生。并獨(dú)立編寫(xiě)數(shù)據(jù)分析與數(shù)據(jù)科學(xué)教材,并設(shè)計(jì)多版實(shí)訓(xùn)教程。在甲骨文公司,作為亞太區(qū)的數(shù)據(jù)科學(xué)家參與Oracle數(shù)據(jù)科學(xué)產(chǎn)品的研發(fā)與推廣。近期的主要研究方向?yàn)闄C(jī)器視覺(jué)與高性能運(yùn)算在現(xiàn)實(shí)當(dāng)中的應(yīng)用。作為甲骨文公司官方媒體的管理員及編輯,從2016年起編寫(xiě)并發(fā)表近100篇技術(shù)文章,涵蓋數(shù)據(jù)庫(kù)技術(shù)、數(shù)據(jù)科學(xué)以及機(jī)器視覺(jué)等方面。
第1部分 簡(jiǎn)介和基礎(chǔ)知識(shí)
第1章 數(shù)據(jù)科學(xué)簡(jiǎn)介 2
數(shù)據(jù)科學(xué)的起源 2
頂級(jí)數(shù)據(jù)科學(xué)工具和技能 5
GUI和平臺(tái) 9
云端工具 10
統(tǒng)計(jì)方法和數(shù)學(xué) 12
數(shù)據(jù)的收集、組織和準(zhǔn)備 12
軟件開(kāi)發(fā) 13
業(yè)務(wù)理解與溝通 13
數(shù)據(jù)科學(xué)及相關(guān)專(zhuān)業(yè) 13
選擇如何專(zhuān)業(yè)化 16
數(shù)據(jù)科學(xué)項(xiàng)目方法論 18
進(jìn)一步閱讀數(shù)據(jù)科學(xué)項(xiàng)目管理策略 20
本章測(cè)試 21
本章小結(jié) 21
第2章 Python入門(mén) 23
使用Anaconda安裝并使用Python 23
運(yùn)行Python代碼 25
為什么使用命令行 31
安裝并使用代碼文本編輯器—VS Code 33
安裝Python包和創(chuàng)建虛擬環(huán)境 35
Python基礎(chǔ) 38
列表、元組、集合和字典 45
循環(huán)和遍歷 49
布爾值和條件 51
包和模塊 53
函數(shù) 55
類(lèi) 57
多線程和多進(jìn)程 58
軟件工程最佳實(shí)踐 59
開(kāi)發(fā)技巧 62
本章測(cè)試 64
本章小結(jié) 64
第2部分 處理數(shù)據(jù)
第3章 Python中的SQL和內(nèi)置文件處理模塊 67
本章主要內(nèi)容 67
使用基礎(chǔ)Python加載、讀取和寫(xiě)入文件 67
在Python中使用SQLAlchemy包 85
本章測(cè)試 87
本章小結(jié) 88
第4章 使用Pandas和NumPy加載和整理數(shù)據(jù) 89
對(duì)iTunes數(shù)據(jù)進(jìn)行整理和分析 89
使用Pandas進(jìn)行探索性數(shù)據(jù)分析(EDA)和基本數(shù)據(jù)清理 94
清洗數(shù)據(jù) 104
使用GroupBy 115
將DataFrame寫(xiě)入磁盤(pán) 116
分析比特幣價(jià)格數(shù)據(jù) 117
了解NumPy基礎(chǔ)知識(shí) 119
本章測(cè)試 122
本章小結(jié) 122
第5章 探索性數(shù)據(jù)分析和可視化 123
Python中的EDA和可視化庫(kù) 123
使用Seaborn和pandas執(zhí)行EDA 124
使用Python EDA包 140
使用可視化最佳實(shí)踐 148
為共享及報(bào)告保存繪圖 157
使用Plotly進(jìn)行繪圖 158
本章測(cè)試 161
本章小結(jié) 161
第6章 數(shù)據(jù)處理文檔和電子表格 163
解析和處理Word和PDF文檔 163
使用Excel文件讀取和寫(xiě)入數(shù)據(jù) 176
分析數(shù)據(jù) 181
使用openpyxl處理Excel文件 182
本章測(cè)試 184
本章小結(jié) 184
第7章 網(wǎng)頁(yè)抓取 186
了解互聯(lián)網(wǎng)的結(jié)構(gòu) 187
執(zhí)行簡(jiǎn)單的網(wǎng)頁(yè)抓取 189
從抓取的頁(yè)面中解析HTML 196
使用XPath、lxml和bs4從網(wǎng)頁(yè)中提取數(shù)據(jù) 199
從多個(gè)頁(yè)面收集數(shù)據(jù) 203
使用API收集數(shù)據(jù) 205
使用API包裝器 207
網(wǎng)絡(luò)抓取的道德規(guī)范及合法性 212
本章測(cè)試 213
本章小結(jié) 214
第3部分 數(shù)據(jù)科學(xué)中的統(tǒng)計(jì)學(xué)
第8章 概率、分布和抽樣 216
概率基礎(chǔ) 216
分布 223
從數(shù)據(jù)中采樣 234
本章測(cè)試 237
本章小結(jié) 238
第9章 數(shù)據(jù)科學(xué)的統(tǒng)計(jì)檢驗(yàn) 239
統(tǒng)計(jì)檢驗(yàn)基礎(chǔ)和樣本比較檢驗(yàn) 239
其他統(tǒng)計(jì)檢驗(yàn) 248
本章測(cè)驗(yàn) 251
本章小結(jié) 251
第4部分 機(jī)器學(xué)習(xí)
第10章 為機(jī)器學(xué)習(xí)準(zhǔn)備數(shù)據(jù):特征選擇、特征工程和降維 253
機(jī)器學(xué)習(xí)的類(lèi)型 253
特征選擇 255
單變量統(tǒng)計(jì)特征選擇 260
特征工程 270
數(shù)據(jù)的清洗和準(zhǔn)備 271
轉(zhuǎn)換數(shù)值數(shù)據(jù) 277
提取日期時(shí)間特征 281
分箱(Binning) 282
熱獨(dú)編碼和標(biāo)簽編碼 283
降維 287
本章測(cè)試 291
本章小結(jié) 292
第11章 機(jī)器學(xué)習(xí)分類(lèi) 293
機(jī)器學(xué)習(xí)分類(lèi)算法 293
邏輯回歸的工作原理 297
使用sklearn檢查特征的重要性 299
使用統(tǒng)計(jì)模型進(jìn)行邏輯回歸 301
最大似然估計(jì)、優(yōu)化器和邏輯回歸算法 304
正則化 307
超參數(shù)和交叉驗(yàn)證 308
大數(shù)據(jù)的邏輯回歸(和其他模型) 310
用于二元分類(lèi)的樸素貝葉斯 311
k-最近鄰(KNN) 313
多類(lèi)分類(lèi) 315
選擇正確的模型 319
“沒(méi)有免費(fèi)的午餐”定理 319
模型的計(jì)算復(fù)雜度 320
本章測(cè)試 321
本章小結(jié) 321
第12章 評(píng)估機(jī)器學(xué)習(xí)分類(lèi)模型和分類(lèi)抽樣 322
使用指標(biāo)評(píng)估分類(lèi)算法的性能 322
采樣和平衡分類(lèi)數(shù)據(jù) 339
本章測(cè)試 344
本章小結(jié) 344
第13章 帶有回歸的機(jī)器學(xué)習(xí) 345
線性回歸 345
評(píng)估回歸模型 354
線性回歸假設(shè) 358
大數(shù)據(jù)回歸模型 362
預(yù)測(cè) 363
本章測(cè)試 366
本章小結(jié) 366
第14章 優(yōu)化模型和使用AutoML 368
使用搜索方法進(jìn)行超參數(shù)優(yōu)化 368
使用ML模型優(yōu)化特征數(shù)量 377
使用PyCaret進(jìn)行AutoML 378
本章測(cè)試 384
本章小結(jié) 384
第15章 基于樹(shù)的機(jī)器學(xué)習(xí)模型 385
決策樹(shù) 385
隨機(jī)森林 390
基于樹(shù)的方法的特征重要性 395
增強(qiáng)樹(shù)模型:AdaBoost、XGboost、LightGBM和CatBoost 397
在GPU上訓(xùn)練增強(qiáng)模型 404
LightGBM 405
CatBoost 408
使用提前停止的算法 410
本章測(cè)試 411
本章小結(jié) 411
第16章 支持向量機(jī)(SVM)機(jī)器學(xué)習(xí)模型 413
SVM是如何工作的 414
使用SVM 416
本章測(cè)試 421
本章小結(jié) 421
第5部分 文本分析和報(bào)告
第17章 使用機(jī)器學(xué)習(xí)進(jìn)行聚類(lèi) 423
使用k-means聚類(lèi) 423
聚類(lèi)指標(biāo) 424
優(yōu)化k-means中的K 425
檢查聚類(lèi) 429
層次聚類(lèi) 433
DBSCAN 436
其他無(wú)監(jiān)督方法 438
本章測(cè)試 439
本章小結(jié) 439
第18章 處理文本 441
文本預(yù)處理 441
基本的文本分析 453
無(wú)監(jiān)督學(xué)習(xí) 463
監(jiān)督學(xué)習(xí) 467
本章測(cè)試 474
本章小結(jié) 474
第6部分 總結(jié)
第19章 講述數(shù)據(jù)故事和自動(dòng)報(bào)告及儀表板 477
用數(shù)據(jù)講故事 477
自動(dòng)報(bào)告和儀表板 484
本章測(cè)試 491
本章小結(jié) 491
第20章 道德與隱私 492
機(jī)器學(xué)習(xí)算法的道德 492
偏見(jiàn) 492
數(shù)據(jù)隱私 495
將數(shù)據(jù)科學(xué)用于公共利益 501
其他道德考慮 502
本章測(cè)試 504
本章小結(jié) 504
第21章 數(shù)據(jù)科學(xué)的發(fā)展與未來(lái) 506
博客、newsletter、書(shū)籍和學(xué)術(shù)資源 506
在線學(xué)習(xí)平臺(tái) 510
云服務(wù) 511
其他值得關(guān)注的內(nèi)容 511
保持與時(shí)俱進(jìn)的策略 512
其他沒(méi)有在本書(shū)中涉及的內(nèi)容 512
數(shù)據(jù)科學(xué)的未來(lái)發(fā)展 514
本章小結(jié) 515