《生物信息學(xué)》同繞目前生物信息學(xué)研究與應(yīng)用的主要內(nèi)容,以豐富的實(shí)例,重點(diǎn)介紹了相關(guān)數(shù)據(jù)庫(kù)和軟件的功能、應(yīng)用策略和使用方法。具體內(nèi)容包括:核酸與蛋白質(zhì)序列數(shù)據(jù)資源、序列比較與相似序列搜索、分子系統(tǒng)發(fā)育分析、基因組結(jié)構(gòu)注釋、蛋白質(zhì)結(jié)構(gòu)分析、蛋白質(zhì)序列分析、Microam,基因表達(dá)數(shù)據(jù)分析、蛋白質(zhì)組數(shù)據(jù)分析、生物信息學(xué)在疾病相關(guān)基因與藥物發(fā)現(xiàn)中的應(yīng)用,以及生物信息導(dǎo)航資源!渡镄畔W(xué)》試圖綜合介紹生物信息學(xué)研究解決的問題、基本方法、現(xiàn)有成果與存在的問題,特別是能使讀者把握生物信息學(xué)自身的特點(diǎn)和分析解決問題的基本途徑,使不同專業(yè)背景讀者都能有一定的收獲。 《生物信息學(xué)》適合作為生命科學(xué)、計(jì)算機(jī)科學(xué)等相關(guān)專業(yè)的教材使用,也可供相關(guān)科研人員參考使用。
1 緒言
1.1 生物信息學(xué)的發(fā)展歷史
1.2 本書內(nèi)容簡(jiǎn)介
1.3 貫穿本書的例子
2 序列數(shù)據(jù)資源
2.1 分子生物學(xué)數(shù)據(jù)庫(kù)
2.2 序列數(shù)據(jù)存儲(chǔ)格式
2.3 核酸序列數(shù)據(jù)庫(kù)
2.3.1 GenBank數(shù)據(jù)庫(kù)
2.3.2 RefSeq數(shù)據(jù)庫(kù)
2.3.3 EPD數(shù)據(jù)庫(kù)
2.4 蛋白質(zhì)序列數(shù)據(jù)庫(kù)
2.4.1 UniProt簡(jiǎn)介
2.4.2 UniProtlKB數(shù)據(jù)庫(kù)
2.5 基因組數(shù)據(jù)資源
2.5.1 基礎(chǔ)知識(shí)
2.5.2 不同物種的基因組數(shù)據(jù)庫(kù)
2.5.3 人類基因組數(shù)據(jù)庫(kù)
2.6 數(shù)據(jù)的檢索與獲取
2.6.1 檢索工具
2.6.2 獲取序列數(shù)據(jù)的例子
思考題
3 序列比對(duì)與比對(duì)搜索
3.1 基本概念
3.1.1 比對(duì)序列的選擇:核苷酸序列還是蛋白質(zhì)序列
3.1.2 同源性、相似性和一致性
3.1.3 空位
3.1.4 多序列比對(duì)
3.2 Dayhoff模型:可接受點(diǎn)突變
3.2.1 PAMl矩陣
3.2.2 PAM250和其他PAM矩陣
3.2.3 從突變概率矩陣到對(duì)數(shù)比值打分矩陣
3.2.4 雙序列比對(duì)中PAM矩陣的實(shí)際有用性
3.2.5 PAM矩陣的重要替代者:BLOSUM打分矩陣
3.2.6 雙序列比對(duì)和檢測(cè)限度
3.3 比對(duì)算法:全局和局部
3.3.1 全局序列比對(duì):Needleman—wunsch算法
3.3.2 局部比對(duì):Smith—waterman算法
3.3.3 Smith—Waterman算法的快速和啟發(fā)式版本
3.4 雙序列比對(duì)的顯著性
3.4.1 雙序列比對(duì)統(tǒng)計(jì)顯著性檢驗(yàn)
3.4.2 全局比對(duì)的統(tǒng)計(jì)顯著性
3.4.3 局部比對(duì)的統(tǒng)計(jì)顯著性
3.5 局部比對(duì)搜索基本工具BLAST
3.5.1 BLAST搜索的關(guān)鍵步驟
3.5.2 BLAST算法:列表、掃描、延伸
3.5.3 BLAST算法的統(tǒng)計(jì)學(xué)和E值
3.5.4 BLAsT的各類分值
3.5.5 BLAST搜索示例:應(yīng)用搜索原則
3.5.6 BLAsT搜索示例:多結(jié)構(gòu)域蛋白的搜索
3.5.7 BLAST搜索示例:改變打分矩陣
3.6 尋找遠(yuǎn)緣相關(guān)的蛋白質(zhì):PSI—BLAST
3.6.1 基本步驟
3.6.2 PSI—BLAST的結(jié)果評(píng)估
3.6.3 PSI—BLAST的錯(cuò)誤:破壞的問題
3.7 模式識(shí)別BLAST(PHI—BLAST)
3.8 用BLAST來發(fā)現(xiàn)新基因
思考題
4 基因組結(jié)構(gòu)注釋
4.1 引言
4.1.1 基因及其結(jié)構(gòu)
4.1.2 基因結(jié)構(gòu)預(yù)測(cè)概述
4.2 基于EST序列數(shù)據(jù)識(shí)別基因結(jié)構(gòu)
4.2.1 判別基因序列的真實(shí)EST匹配的措施
4.2.2 真實(shí)EsT匹配的識(shí)別流程
4.2.3 確定EST對(duì)應(yīng)的基因結(jié)構(gòu)
4.3 基因結(jié)構(gòu)預(yù)測(cè)的統(tǒng)計(jì)學(xué)建模方法
4.3.1 基于多級(jí)優(yōu)化預(yù)測(cè)基因結(jié)構(gòu)的基本思想
4.3.2 基因結(jié)構(gòu)的分級(jí)建模
4.3.3 基因結(jié)構(gòu)預(yù)測(cè)的動(dòng)態(tài)規(guī)劃算法
4.3.4 基于統(tǒng)計(jì)學(xué)方法預(yù)測(cè)基因結(jié)構(gòu)的效果
4.4 基因組結(jié)構(gòu)的自動(dòng)注釋
4.4.1 Ensembl的基因組注釋流程
4.4.2 Ensembl自動(dòng)注釋結(jié)果與人工注釋結(jié)果比較
思考題
5 分子系統(tǒng)發(fā)生分析
5.1 分子水平的進(jìn)化介紹
5.1.1 問題的歷史起源
5.1.2 分子鐘
5.2 基本概念
5.2.1 系統(tǒng)發(fā)生樹的基本概念
5.2.2 直系同源和旁系同源
5.3 分子系統(tǒng)發(fā)生樹的構(gòu)建
5.3.1 選擇可供分析的序列
5.3.2 多序列比對(duì)
5.3.3 構(gòu)建系統(tǒng)發(fā)生樹
5.3.4 方法的選取
5.3.5 常用分析軟件
思考題
6 蛋白質(zhì)結(jié)構(gòu)
6.1 蛋白質(zhì)結(jié)構(gòu)
6.2 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)和結(jié)構(gòu)可視化
6.2.1 PDB數(shù)據(jù)庫(kù)
6.2.2 蛋白質(zhì)結(jié)構(gòu)家族分類數(shù)據(jù)庫(kù)
6.2.3 蛋白質(zhì)結(jié)構(gòu)的可視化
6.3 蛋白質(zhì)結(jié)構(gòu)分析
6.3.1 蛋白質(zhì)結(jié)構(gòu)比對(duì)
6.3.2 結(jié)構(gòu)模型品質(zhì)的分析
6.3.3 蛋白質(zhì)內(nèi)部相互作用分析
6.3.4 溶劑可接近表面的計(jì)算及分析
6.3.5 功能位點(diǎn)的分析
6.4 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)
6.4.1 蛋白質(zhì)結(jié)構(gòu)比較建模
6.4.2 蛋白質(zhì)結(jié)構(gòu)從頭預(yù)測(cè)方法
6.4.3 二級(jí)結(jié)構(gòu)預(yù)測(cè)
6.4.4 結(jié)構(gòu)預(yù)測(cè)的策略
思考題
7 蛋白質(zhì)序列分析與功能預(yù)測(cè)
7.1 引言
7.2 功能描述
7.2.1 基因本體
7.2.2 利用GO術(shù)語(yǔ)的功能注釋
7.3 基于序列相似性的功能預(yù)測(cè)
7.3.1 基本預(yù)測(cè)方法
7.3.2 分析與討論
7.3.3 蛋白質(zhì)家族與序列的相似性聚類
7.4 基于蛋白質(zhì)信號(hào)的功能預(yù)測(cè)
7.4.1 蛋白質(zhì)信號(hào)
7.4.2 信號(hào)的描述
7.4.3 蛋白質(zhì)模體、結(jié)構(gòu)域和家族數(shù)據(jù)庫(kù)
7.4.4 分析與討論
7.5 基于蛋白質(zhì)序列特征的功能預(yù)測(cè)
7.5.1 序列的理化性質(zhì)
7.5.2 跨膜與卷曲螺旋分析
7.5.3 蛋白質(zhì)翻譯后修飾分析
7.5.4 亞細(xì)胞定位預(yù)測(cè)
7.5.5 基于序列特征的蛋白質(zhì)分子功能預(yù)測(cè)
7.6 功能預(yù)測(cè)的其他思路
思考題
8 微陣列數(shù)據(jù)分析
8.1 微陣列
8.1.1 微陣列實(shí)驗(yàn)過程
8.1.2 微陣列制備
8.1.3 雜交方式
8.1.4 圖像分析
8.1.5 數(shù)據(jù)標(biāo)準(zhǔn)化
8.1.6 基因表達(dá)矩陣
8.1.7 基因表達(dá)數(shù)據(jù)分析
8.2 數(shù)據(jù)預(yù)處理
8.2.1 全局歸一化
8.2.2 散點(diǎn)分析
8.2.3 數(shù)據(jù)全局歸一化中的局部歸一化
8.3 差異表達(dá)基因的檢測(cè)
8.3.1 基本檢驗(yàn)方法
8.3.2 分析實(shí)例
8.3.3 疾病基因表達(dá)譜差異分析
8.4 微陣列數(shù)據(jù)的分類分析方法
8.4.1 聚類分析
8.4.2 分類分析
8.5 構(gòu)建基因調(diào)控網(wǎng)絡(luò)
8.5.1 基因調(diào)控網(wǎng)絡(luò)的簡(jiǎn)單例子
8.5.2 微分方程模型
8.5.3 布爾網(wǎng)絡(luò)模型
8.5.4 貝葉斯網(wǎng)絡(luò)模型
8.6 微陣列數(shù)據(jù)與分析軟件
8.6.1 數(shù)據(jù)交換標(biāo)準(zhǔn)
8.6.2 微陣列數(shù)據(jù)庫(kù)
8.6.3 微陣列數(shù)據(jù)分析流程
8.6.4 微陣列數(shù)據(jù)分析工具
思考題
9 蛋白質(zhì)組數(shù)據(jù)分析
9.1 二維凝膠電泳數(shù)據(jù)分析
9.1.1 二維凝膠電泳原理
9.1.2 二維凝膠電泳數(shù)據(jù)及其應(yīng)用
9.2 蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析
9.2.1 質(zhì)譜技術(shù)
9.2.2 蛋白質(zhì)的質(zhì)譜分析
9.3 蛋白質(zhì)互作生物信息學(xué)
9.3.1 親和層析和質(zhì)譜
9.3.2 酵母雙雜交系統(tǒng)
9.3.3 蛋白質(zhì)一蛋白質(zhì)互作預(yù)測(cè)
9.3.4 蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)
9.4 分析細(xì)胞通路的生物信息學(xué)方法
思考題
10 疾病相關(guān)研究
10.1 疾病基因相關(guān)研究的概述
10.2 疾病相關(guān)的數(shù)據(jù)資源
10.2.1 人類在線孟德爾遺傳數(shù)據(jù)庫(kù)
10.2.2 遺傳關(guān)聯(lián)數(shù)據(jù)庫(kù)
10.2.3 人類基因突變數(shù)據(jù)庫(kù)
10.2.4 癌癥數(shù)據(jù)庫(kù)
10.2.5 單核苷酸多態(tài)性數(shù)據(jù)庫(kù)
10.3 疾病基因發(fā)現(xiàn)
思考題
11 SNP芯片及深度測(cè)序數(shù)據(jù)分析
11.1 SNP簡(jiǎn)介
11.2 結(jié)構(gòu)變異
11.3 SNP實(shí)驗(yàn)簡(jiǎn)介
11.3.1 Illumina芯片
11.3.2.Affymetrix芯片
11.4 深度測(cè)序技術(shù)
11.5 序列數(shù)據(jù)基本格式
11.5.1 FASTQ
11.5.2 SAM和BAM
11.5.3 BED
11.5.4 VCF
11.6 實(shí)例數(shù)據(jù)分析
11.6.1 利用深度測(cè)序發(fā)現(xiàn)SNV
11.6.2 利用SNP芯片檢測(cè)拷貝數(shù)變異
思考題
參考書目
《生物信息學(xué)》:
由Pearson和Lipman于1988年提出的FASTA搜索算法分如下4步。
(1)生成一個(gè)查詢表,包括數(shù)據(jù)庫(kù)中短的氨基酸和核苷酸片段。短片段的長(zhǎng)度由參數(shù)k—tup決定。如果蛋白質(zhì)搜索k—tup=3,查詢序列就以3個(gè)氨基酸為塊到查詢表中查找可能的3個(gè)氨基酸匹配。FASTA程序?qū)σ粋(gè)給定的k—tup值,產(chǎn)生10個(gè)最高分值片段。
。2)對(duì)這10個(gè)匹配區(qū)域重新打分,并允許有保守性替換,打分過程中使用打分矩陣(如PAM250)。
(3)屬于同一蛋白質(zhì)的高分值區(qū)域連接在一起。
(4)FASTA然后在高分值序列上執(zhí)行全局(Needleman—Wunsch)或者局部(Smith—Water—man)比對(duì),這樣可以優(yōu)化查詢序列和數(shù)據(jù)庫(kù)匹配序列的比對(duì)。動(dòng)態(tài)規(guī)劃算法應(yīng)用于數(shù)據(jù)庫(kù)時(shí)只得到有限的使用,允許FAsTA能非?焖俚胤祷亟Y(jié)果,因?yàn)樗辉u(píng)估了一部分潛在的比對(duì)。
BLAST是一個(gè)局部比對(duì)搜索工具,用來確定一條查詢序列和一個(gè)數(shù)據(jù)庫(kù)的比對(duì)。不過1990年給出的BLAST不引入空位,F(xiàn)在改進(jìn)的BLAST版本已允許比對(duì)中引入空位。本章將在3.5節(jié)中詳細(xì)介紹BLAST及其啟發(fā)式算法。
3.4 雙序列比對(duì)的顯著性
如前所述,通過比對(duì),我們可以得到兩條比對(duì)序列間的一致性。然而,怎樣才能判斷兩條序列從進(jìn)化上來說是顯著相關(guān)的?比如兩條序列比對(duì)得到的一致性為26%,這個(gè)值隨機(jī)情況下也能發(fā)生嗎?
……