深度學習在許多領域已經(jīng)取得了令人矚目的成就。而今,它正在整個科學界特別是生命科學界掀起波瀾!痘谏疃葘W習的生命科學》是一本注重實際操作的書,為開發(fā)者和科學研究者講述了如何在基因組學、化學、生物物理學、顯微鏡學、醫(yī)學分析及其他領域中應用深度學習。
《基于深度學習的生命科學》介紹了一些深度網(wǎng)絡原型,非常適合那些準備將自己的技能應用于諸如生物學、遺傳學和藥物發(fā)現(xiàn)等科學應用的開發(fā)人員和科學家。你將跟隨設計一個將物理、化學、生物學和醫(yī)學聯(lián)系在一起的新療法問題的案例研究,該案例代表了科學研究中的一個具挑戰(zhàn)性的問題。通過該書,你將學到:
學習在分子數(shù)據(jù)上執(zhí)行機器學習的基礎知識。
理解為什么深度學習是研究遺傳學和基因組學的有力工具。
應用深度學習理解生物物理系統(tǒng)。
通過DeepChem獲得機器學習的簡單認識。
使用深度學習分析顯微圖像。
使用深度學習技術分析醫(yī)學掃描圖像。
了解變分自編碼器和生成對抗網(wǎng)絡。
解釋你的模型在做什么以及它是如何工作的。
深度學習在許多領域已經(jīng)取得了令人矚目的成就。而今,它正在整個科學界特別是生命科學界掀起波瀾。本書是一本注重實際操作的書,為開發(fā)者和科學研究者講述了如何在基因組學、化學、生物物理學、顯微鏡學、醫(yī)學分析及其他領域中應用深度學習。
“本書是對科學界的寶貴貢獻!
——Prabhat
NERSC、Lawrence Berkeley國家實驗室數(shù)據(jù)和分析服務團隊負責人
“本書是一本優(yōu)秀的高水平著作,提供了特定技術的切入點,和對基礎科學的討論!
——C.Titus Brown
UC,Davis副教授
深度學習算法擅長于識別和利用大型數(shù)據(jù)集中的模式。本書概述了深度學習在生命科學許多領域的應用,包括在遺傳學、藥物發(fā)現(xiàn)以及醫(yī)學診斷中的應用。
前言
近年來,生命科學和數(shù)據(jù)科學已經(jīng)融合。機器人和自動化技術的進步使化學家和生物學家能夠生成大量的數(shù)據(jù)。今天的科學家在一天內(nèi)生成的數(shù)據(jù)比20年前他們的前輩在整個職業(yè)生涯中所能生成的還多。這種快速生成數(shù)據(jù)的能力也帶來了許多新的科學挑戰(zhàn)。我們不再處于一個數(shù)據(jù)可以通過加載到電子表格并通過制作幾個圖表來處理的時代。為了從這些數(shù)據(jù)中集中提取科學知識,我們必須能夠識別和提取其中隱含的不明顯的關系。
在過去幾年中出現(xiàn)的深度學習技術是識別數(shù)據(jù)模式和關系的一種強大工具。深度學習是一類算法,它徹底改變了解決諸如圖像分析、語言翻譯和語音識別等問題的方法。深度學習算法擅長于識別和利用大型數(shù)據(jù)集中的模式;谶@些原因,深度學習在生命科學中有著廣泛的應用。本書概述了深度學習在生命科學許多領域的應用,包括在遺傳學、藥物發(fā)現(xiàn)以及醫(yī)學診斷中的應用。我們描述的許多示例都附有代碼,這些代碼提供了對方法的實際介紹,并為讀者提供了未來研究和探索的起點。
本書約定
在本書中使用如下排版約定:
斜體字(Italic)
表示新的術語、鏈接、電子郵件地址、文件名和文件擴展名。
等寬字體(Constant width)
用于表示代碼行以及段落內(nèi)引用的程序中的元素,如變量、函數(shù)名、數(shù)據(jù)庫、數(shù)據(jù)類型、環(huán)境變量、語句和關鍵詞。
等寬黑體(Constant width bold)
表示由用戶輸入的命令或其他文本。
等寬斜體(Constant width italic)
表示應替換為用戶提供的值或由上下文確定的值來替換的文本。
使用書中的代碼
本書補充材料(代碼示例、練習等)可從https://github.com/deepchem/DeepLearningLifeSciences 下載。
本書可幫你完成你的工作。一般來說,你可以在你的程序和文檔中使用本書提供的示例代碼。不需要聯(lián)系我們獲得許可,除非你正在編制該代碼的重要部分。例如,使用本書中的幾個代碼塊編寫程序不需要獲得許可,銷售或發(fā)行O’Reilly 圖書中的示例光盤則需要獲得許可,通過引用本書和書中的示例代碼來回答問題不需要許可,將本書中的大量示例代碼用到你的產(chǎn)品文檔中則需要獲得許可。
我們提倡但不強制要求歸屬權聲明。引用信息通常包括題目、作者、出版商和ISBN。例如:“Deep Learning for the Life Sciences by Bharath Ramsundar,Peter Eastman, Patrick Walters,and Vijay Pande (O’Reilly).Copyright:2019Bharath Ramsndar,Karl Leswing,Peter Eastman ,and Vijay Pande,978-1-492-03983-9”。
如果你覺得在使用本書的代碼示例過程中超出了合理的使用范圍或上述許可范圍,請通過permissions@oreilly.com 與我們聯(lián)系。
O’Reilly 在線學習
40 年來,O’Reilly 一直在提供技術和商業(yè)培訓、知識、見解,以幫助公司取得成功。
我們獨一無二的專家和創(chuàng)新者團隊會通過書籍、文章、會議和在線學習平臺分享他們的知識和專業(yè)知識。O’Reilly 在線學習平臺為你提供了按需訪問在線培訓課程、深入的學習路徑、交互式編碼環(huán)境,以及來自O’Reilly 和200多家其他出版商的大量文本和視頻。有關詳細信息,請訪問http://oreilly.com網(wǎng)站。
聯(lián)系我們
任何有關本書的意見或疑問,請按照以下地址聯(lián)系出版社。
美國:
O’Reilly Media, Inc.
1005 Gravenstein Highway North
Sebastopol, CA 95472
中國:
北京市西城區(qū)西直門南大街2 號成銘大廈C 座807 室(100035)
奧萊利技術咨詢(北京)有限公司
我們在這本書的網(wǎng)頁中列出了勘誤表、示例和任何附加信息?梢栽趆ttp://bit.ly/deep-lrng-for-life-science 網(wǎng)站訪問此頁面。
發(fā)表評論或咨詢有關本書的技術問題,請發(fā)送電子郵件至bookquestions@oreilly.com。
關于我們的書籍、課程、會議和新聞的更多信息, 請參閱http://www.oreilly.com。
我們的Facebook:http://facebook.com/oreilly。
我們的Twitter:http://twitter.com/oreillymedia。
我們的YouTube:http://www.youtube.com/oreillymedia。
致謝
我們要感謝O’Reilly 的編輯Nicole Tache,以及技術審稿人和測試版審稿人對本書的寶貴貢獻。此外,我們還要感謝Karl Leswing 和Zhenqin (Michael)Wu 對書中代碼的貢獻,以及Johnny Israeli 對基因組學一章的寶貴建議。
Bharath 感謝其家人在他許多個漫長的周末和夜晚編寫本書時給予的支持和鼓勵。
Peter 要感謝妻子始終如一的支持以及許多同事的幫助,他從他們那里學到了很多關于機器學習的知識。
Pat 要感謝妻子Andrea,以及女兒Alee 和Maddy,感謝她們的愛和支持。他還想感謝過去和現(xiàn)在在Vertex Pharmaceuticals 和Relay Therapeutics 公司的同事們,他從他們那里學到了很多。
最后,我們要感謝Deepchem 開放源碼社區(qū)在整個項目中給予的鼓勵和支持。
Bharath Ramsundar是Computable的聯(lián)合創(chuàng)始人和首席技術官。
Peter Eastman在Stanford University開發(fā)了計算化學和生物學方面的軟件。
Patrick Walters是Relay Therapeutics公司計算與信息學小組的負責人。
Vijay Pande是Andreessen Horowitz公司的合伙人。
目錄
前言 1
第1 章 為什么是生命科學? 7
為什么是深度學習? 7
當代生命科學是關于數(shù)據(jù)的 8
你能學到什么? 9
第2 章 深度學習概論 15
線性模型 16
多層感知器 18
訓練模型 22
驗證 24
正則化 25
超參數(shù)優(yōu)化 26
其他類型的模型 28
卷積神經(jīng)網(wǎng)絡 28
遞歸神經(jīng)網(wǎng)絡 29
延伸閱讀 31
第3 章 基于DeepChem 的機器學習 33
DeepChem 數(shù)據(jù)集 34
訓練一個預測分子毒性的模型 36
案例研究:訓練MNIST 模型 44
MNIST 數(shù)字識別數(shù)據(jù)集 45
MNIST 的卷積結(jié)構 46
softmax 和SoftMaxCrossEntropy 50
結(jié)論 51
第4 章 分子的機器學習 53
什么是分子? 54
什么是分子鍵? 56
分子圖 58
分子構型 59
分子的手性60
分子的特征表示 62
SMILES 字符串和RDKit 62
擴展– 連接指紋 62
分子描述符63
圖卷積 64
訓練一個模型來預測溶解度 65
MoleculeNet 67
SMARTS 字符串 67
結(jié)論 70
第5 章 生物物理的機器學習 71
蛋白質(zhì)結(jié)構 73
蛋白質(zhì)序列75
不能用計算方法預測3D 蛋白質(zhì)結(jié)構嗎? 77
蛋白質(zhì)結(jié)合簡介 78
生物物理數(shù)據(jù)的特征化 79
網(wǎng)格特征化80
原子特征化84
PDBBind 案例研究 85
PDBBind 數(shù)據(jù)集 85
特征化PDBBind 數(shù)據(jù)集 89
結(jié)論 93
第6 章 基因組學的深度學習 97
DNA、RNA 和蛋白質(zhì) 98
現(xiàn)在是現(xiàn)實世界 100
轉(zhuǎn)錄因子的結(jié)合 102
一個用于TF 結(jié)合的卷積模型 103
染色質(zhì)可接近性 106
RNA 干擾 109
結(jié)論 112
第7 章 顯微鏡檢查的機器學習 115
顯微學簡介 117
現(xiàn)代光學顯微技術 118
衍射極限 120
電子和原子力顯微技術 122
超分辨顯微技術 124
深度學習和衍射極限? 126
制備生物顯微鏡樣本 126
染色 126
樣本固定 128
切片樣本 128
熒光顯微技術 129
樣本制備工件 131
深度學習應用 132
細胞計數(shù) 132
什么是細胞系? 132
細胞分割 136
計算分析 141
結(jié)論 141
第8 章 醫(yī)學領域的深度學習 143
計算機輔助診斷 143
貝葉斯網(wǎng)絡的概率診斷 145
電子健康記錄數(shù)據(jù) 146
ICD-10 編碼 147
那么無監(jiān)督學習呢? 148
患者EHR 大型數(shù)據(jù)庫存在危險嗎? 149
用于放射學的深度學習 150
x 線掃描和CT 掃描 153
組織學 155
核磁共振掃描 156
學習模型作為一種治療方法 157
糖尿病視網(wǎng)膜病變 158
結(jié)論 162
道德考慮 162
失業(yè) 163
小結(jié) 164
第9 章 生成模型 165
變分自編碼 165
生成對抗網(wǎng)絡 167
生成模型在生命科學中的應用 169
為先導化合物提供新思路 169
蛋白質(zhì)的設計 170
用于科學發(fā)現(xiàn)的工具 170
生成建模的未來 170
使用生成模型 171
分析生成模型的輸出 173
結(jié)論 176
第10 章 深層模型的解釋 179
解釋預測 180
優(yōu)化輸入 183
預測的不確定性 187
可解釋性、可擴展性和實際后果 191
結(jié)論 192
第11 章 虛擬篩選工作流示例 193
為預測建模準備數(shù)據(jù)集 194
訓練預測模型 201
為模型預測準備數(shù)據(jù)集 207
應用預測模型 211
結(jié)論 219
第12 章 前景和展望 221
醫(yī)學診斷 221
個性化醫(yī)療 223
藥物研發(fā) 225
生物學研究 226
結(jié)論 228