本書(shū)從數(shù)據(jù)科學(xué)的角度,講解了Python和R的語(yǔ)言特性以及各自的優(yōu)缺點(diǎn),介紹了包括包、框架和工作流在內(nèi)的開(kāi)源生態(tài)系統(tǒng),分析了Python和R分別適用于哪些業(yè)務(wù)場(chǎng)景,并通過(guò)真實(shí)的案例演示如何在單個(gè)工作流中集成Python與R,使兩種語(yǔ)言充分發(fā)揮優(yōu)勢(shì),改善業(yè)務(wù)應(yīng)用的效果。還提供了Python和R的對(duì)照翻譯,幫助讀者在兩種語(yǔ)言間快速切換。
里克.J.斯卡韋塔(RickJ.Scavetta)自2012年以來(lái),一直擔(dān)任著獨(dú)立研討會(huì)的培訓(xùn)師、自由職業(yè)數(shù)據(jù)科學(xué)家和機(jī)構(gòu)聯(lián)合創(chuàng)始人的角色。作為Scavetta Academy運(yùn)營(yíng)人員,與德國(guó)的主要研究機(jī)構(gòu)也有著密切且經(jīng)常性的往來(lái)。自2016年以來(lái),他發(fā)布在DataCamp 上的在線課程已被超過(guò)200,000名學(xué)生學(xué)習(xí),同時(shí)還為O'Reilly和Manning的高級(jí)數(shù)據(jù)科學(xué)課程做出了貢獻(xiàn)。
博揚(yáng).安格洛夫(Boyan Angelov)是一位數(shù)據(jù)科學(xué)戰(zhàn)略家和顧問(wèn),在各種學(xué)術(shù)和行業(yè)環(huán)境中擁有十余年的經(jīng)驗(yàn),研究涵蓋的主題包括生物信息學(xué)、臨床試驗(yàn)、人力資源技術(shù)和管理咨詢。他還是XAI領(lǐng)域開(kāi)源科學(xué)項(xiàng)目的貢獻(xiàn)者,并定期在各種學(xué)術(shù)會(huì)議和社區(qū)聚會(huì)上發(fā)言。
前言 xiii
第I部分 探索新的語(yǔ)言
第 1章 概述 3
1.1 R的起源 3
1.2 Python的起源 4
1.3 語(yǔ)言戰(zhàn)爭(zhēng)的開(kāi)端 5
1.4 數(shù)據(jù)科學(xué)主導(dǎo)權(quán)之戰(zhàn) 6
1.5 合作與社區(qū)建設(shè)的融合 8
1.6 Z后的想法 8
第II部分 兩種編程語(yǔ)言I:新學(xué)習(xí)一門(mén)語(yǔ)言
第 2章 針對(duì)Python用戶的R 13
2.1 啟動(dòng)和運(yùn)行R 13
2.2 項(xiàng)目和第三方庫(kù) 15
2.3 Tibbles的勝利 20
2.4 關(guān)于數(shù)據(jù)類(lèi)型和數(shù)據(jù)探索 23
2.5 關(guān)于命名(內(nèi)部) 25
2.6 列表 27
2.7 關(guān)于因子 29
2.8 如何查找 30
2.9 重復(fù)迭代 37
2.10 Z后的想法 38
第3章 針對(duì)R用戶的Python 40
3.1 版本和構(gòu)建 41
3.2 標(biāo)準(zhǔn)工具 42
3.3 虛擬環(huán)境 46
3.4 安裝第三方庫(kù) 50
3.5 筆記本 52
3.6 從編程語(yǔ)言角度對(duì)比Python和R 53
3.7 導(dǎo)入數(shù)據(jù)集 55
3.8 檢查數(shù)據(jù) 55
3.9 數(shù)據(jù)結(jié)構(gòu)和描述性統(tǒng)計(jì) 57
3.10 數(shù)據(jù)結(jié)構(gòu):回歸基礎(chǔ) 58
3.11 索引和邏輯表達(dá)式 60
3.12 繪圖 61
3.13 推理統(tǒng)計(jì) 61
3.14 Z后的想法 62
第III部分 兩種編程語(yǔ)言II:現(xiàn)代的環(huán)境
第4章 數(shù)據(jù)格式環(huán)境 65
4.1 外部第三方庫(kù)與基礎(chǔ)庫(kù) 67
4.2 圖像數(shù)據(jù) 69
4.3 文本數(shù)據(jù) 74
4.4 時(shí)間序列數(shù)據(jù) 77
4.4.1 基礎(chǔ)R 77
4.4.2 Prophet第三方庫(kù) 79
4.5 空間數(shù)據(jù) 80
4.6 Z后的想法 82
第5章 工作流程環(huán)境 83
5.1 定義工作流程 83
5.2 探索式數(shù)據(jù)分析 85
5.2.1 統(tǒng)計(jì)可視化 85
5.2.2 交互可視化 88
5.3 機(jī)器學(xué)習(xí) 89
5.4 數(shù)據(jù)工程 93
5.5 報(bào)表 97
5.5.1 靜態(tài)報(bào)表 97
5.5.2 互動(dòng)式報(bào)表 98
5.6 Z后的想法 101
第IV部分 兩種編程語(yǔ)言III:學(xué)會(huì)協(xié)同
第6章 協(xié)同使用兩種語(yǔ)言 105
6.1 虛擬的互操作性 105
6.2 互操作性 107
6.3 深入互操作性 112
6.3.1 在R Markdown文檔中R和Python之間傳遞對(duì)象 112
6.3.2 在R Markdown文檔中調(diào)用Python 113
6.3.3 使用來(lái)源命令調(diào)用Python 114
6.3.4 使用REPL調(diào)用Python 115
6.3.5 在交互式文檔中使用動(dòng)態(tài)輸入調(diào)用Python 115
6.4 Z后的想法 117
第7章 兩種編程語(yǔ)言數(shù)據(jù)科學(xué)案例研究 118
7.1 24年188萬(wàn)場(chǎng)野火 118
7.2 設(shè)置和導(dǎo)入數(shù)據(jù) 121
7.3 EDA和數(shù)據(jù)可視化 122
7.4 機(jī)器學(xué)習(xí) 126
7.4.1 設(shè)置Python環(huán)境 126
7.4.2 特征工程 127
7.4.3 模型訓(xùn)練 128
7.5 推理和用戶界面 129
7.6 Z后的想法 131
附錄 Python-R雙語(yǔ)詞典 133
第三方庫(kù)管理 133
賦值運(yùn)算符 134
類(lèi)型 136
數(shù)學(xué)運(yùn)算符 137
屬性 137
關(guān)鍵字 138
函數(shù)和方法 138
編碼風(fēng)格和命名約定 139
數(shù)據(jù)存儲(chǔ)對(duì)象類(lèi)比 140
數(shù)據(jù)幀 142
邏輯表達(dá)式 145
索引 147
關(guān)于作者 152
關(guān)于封面 152