目錄 (Contents)
縮寫表(Abbreviations) ………………………………………………………………………………………………………………… vi 前言(Preface) ………………………………………………………………………………………………………………………… viii
1章 第2章 第3章 第4章 第5章 第
日新又新的生物學研究(The changing face of research biology)
………………………………… 1
生物資訊學定義(Definitions of bioinformatics) …………………………………………………………… 7 基本物理學(Essentials of physics) ……………………………………………………………………………13 資料與資料庫(Data and databases) …………………………………………………………………………19 資料類別(Data categories) ………………………………………………………………………………………29 5-1 資料類別(Data categories)
…………………………………………………………………………………29
5-2 生物資訊學資料表示法最佳實務 ………………………………………………………………………34 (Best practice for data representation in bioinformatics)
6章 第7章 第
計算(Computation) …………………………………………………………………………………………………37 機率與統計(Probability and statistics)
………………………………………………………………………49
7-1 機率與機率分佈(Probability and probability distributions)
……………………………………………49
7-2 條件機率與貝氏定理(Conditional probability and Bayes’ rule) ………………………………………56 7-3 基礎統計檢定(Elementary statistical testing)
第
8章
……………………………………………………………61
建模與數學方法(Modeling and mathematical techniques) 8-1 系統屬性(System features)
……………………………………………69
…………………………………………………………………………………69
8-2 圖形理論及其應用(Graph theory and its applications)
………………………………………………72
8-3 常微分方程與代數學(Ordinary differential equations and algebra) …………………………………79 8-4 高等建模方法(Advanced modeling techniques)
………………………………………………………83
8-5 形狀、變形與生長(Shape, deformation and growth)
第
9章
…………………………………………………86
人工智慧與機器學習(Artificial intelligence and machine learning) …………………………………89 9-1 人工智慧與機器學習導論(Introduction to artificial intelligence and machine learning) 9-2 人工智慧與機器學習的統計方法
…………89
………………………………………………………………………91
(Statistical approaches to artificial intelligence and machine learning)
9-3 人工智慧與機器學習的計算方法 ………………………………………………………………………99 (Computation approaches to artificial intelligence and machine learning)
iii
生物資訊學
iv
合記圖書出版社 發行
第
10 章
基因體與其他序列(Genomes and other sequences)
……………………………………………… 107
10-1 資料庫與原始資料(Databases and data sources)………………………………………………… 107 10-2 基因體註解(Genome annotation) 10-3 序列分析(Sequence analysis)
…………………………………………………………………… 131
………………………………………………………………………… 139
10-4 序列家族、比對與親緣關係(Sequence families, alignment and phylogeny)
……………… 160
10-5 域家族與資料庫(Domain families and databases) ………………………………………………… 173
第
11 章
轉錄體學(Transcriptomics) …………………………………………………………………………………… 181 11-1 轉錄產物特性分析(Transcript profiling)
…………………………………………………………… 181
11-2 轉錄體分析的統計問題(Statistical issues for transcriptome analysis) ………………………… 185 11-3 解析基因表現程度差異(Analyzing differential gene expression)
……………………………… 187
11-4 多變量方法與網路推論(Multivariate techniques and network inference) 11-5 資料標準與實驗設計(Data standards and experimental design)
第
12 章
蛋白質與蛋白質體學(Proteins and Proteomics) 12-1 蛋白質體學方法(Proteomics techniques)
…………………… 194
……………………………… 199
…………………………………………………… 203
………………………………………………………… 203
12-2 交互作用蛋白質體學(Interaction proteomics)
…………………………………………………… 213
12-3 交互作用資料庫與網路(Interaction databases and networks)
………………………………… 217
12-4 結構生物資訊學(Structural bioinformatics) ………………………………………………………… 221 12-5 結構分類(Structural classifications) …………………………………………………………………… 241 12-6 結構預測與建模(Structure prediction and modeling)
…………………………………………… 245
12-7 分子動力學與藥物設計(Molecular dynamics and drug design)
13 章 第 14 章 第
……………………………… 259
代謝體學(Metabolomics) ……………………………………………………………………………………… 267 超分子結構(Supramolecular organization) ……………………………………………………………… 271 14-1 超分子結構(Supramolecular organization)
………………………………………………………… 271
14-2 組織等級與生物體等級的結構(Tissue- and organism-scale organization)
第
15 章
生化動力學(Biochemical dynamics)
………………… 273
……………………………………………………………………… 275
15-1 代謝的網路研究(Network studies of metabolism)
………………………………………………… 275
15-2 微積分與代數的使用(Use of calculus and algebra) ……………………………………………… 283
目錄 合記圖書出版社 發行
第
16 章
生理學(Physiology)
…………………………………………………………………………………………… 289
16-1 生理學(Physiology) ……………………………………………………………………………………… 289 16-2 整合生物學與植物建模(Integrative biology and plant modeling) ……………………………… 293 16-3 整合生物學 ─ 結論(Integrative biology – conclusions)
第
17 章
影像分析(Image analysis)
………………………………………… 296
…………………………………………………………………………………… 299
17-1 什麼是影像分析?(What is image analysis?) ……………………………………………………… 299 17-2 影像分析如何應用於生物科學研究?
………………………………………………………… 304
(How is image analysis used in bioscience research?)
17-3 影像增強(Image enhancement)
……………………………………………………………………… 311
17-4 特徵檢測(Feature detection) …………………………………………………………………………… 315 17-5 資料擷取(Data extraction) ……………………………………………………………………………… 319
第
18 章
文本分析(Textual analysis) …………………………………………………………………………………… 323
延伸閱讀(Further reading) ………………………………………………………………………………………………………… 329 索引(Index)
………………………………………………………………………………………………………………………… 337
v
前言 (Preface)
自從Instant Notes in Bioinformatics(1e)出版後,此領域已大幅進展,逐步建立為一門獨立 的學科,因此很感謝出版社給我們這個機會出版本書第二版。我們將本書結構稍作調整,目 標有二:第一、不論學生背景為何─生物、化學、醫學還是神經科學…等,本書都能作為學 習教材。第二、讓大家知道,這些常見的資訊學方法,不只能應用在生物資訊學蓬勃發展的 分子生物學領域,也能應用在大多數生命科學的研究領域。 本書章節分為三大部分,第一部分(第1、2章)為本學科的導論。第1章概述為何生物資訊 學逐漸成為不可或缺的研究方法。第2章則藉由一連串生物資訊學的定義,簡短介紹這門學科 的歷史,從 1960 年代的起步,到 1980 年代的振奮人心(如果不算是讓人如癡如醉的話),再 到二十一世紀,生物資訊學已應用在各式各樣的生物資料上。
基礎知識 第三章〈物理學〉
應用領域 第九章〈機器學習〉 第十一章〈轉錄產物〉
第四章〈資料〉 第十二章〈蛋白質〉 第五章〈資料類別〉
第十三章〈代謝物〉
第六章〈計算〉 第十四章〈解剖學〉 第七章〈統計〉 第八章〈數學〉 第九章〈機器學習〉
第十四章〈解剖學〉 第十六章〈生理學〉 第十七章〈影像分析〉 第十八章〈文本分析〉
章節間相互關係。本書的基礎知識和應用領域兩大部分,分列左右兩欄,實線連結代表主題密切關聯, 虛線連結代表內容彼此呼應。
viii
第二部分包括本學科的基礎知識(第3章到第9章):物理、數學和資訊科學。不過這裡省 略了一個重要項目 ─ 程式設計,它對生物資訊學研究非常重要,但因為篇幅的限制,在此無 法提供任何程式語言的適當訓練。程式設計是非常實用的技能,留給其他許多市面上的書籍 作介紹。不過在此我們還是試著簡述,良好資料管理和程式設計的基本原理。 第三部分則是應用的生物學領域(第10章到第18章),再細分為三個部分:(一)分子生物 學;(二)代謝、解剖和生理;以及(三)複雜的原始資料(特別是影像資料集合和自然語言文 本),其中文本分析是資料最難以準確擷取、量化的研究領域。本書第二和第三部分的相互關 係如前一頁的圖,此圖特別強調基礎知識的重要性,因為從兩者間如此緊密交纏的網狀結構 可清楚看出,所有應用領域皆奠基於這些基礎知識。 現在生物資訊學的涵蓋範圍極廣,因此本書三位主要作者認為,應該邀請其他人編寫某 些章節。我們在此向其他幾位作者的貢獻致上感謝之意:第10章(Nicola Gold)、第11章(Alex Marshall)、第12章(Nicola Gold & Tom Gallagher)以及第13章(Rob Linforth)。有些人則幫忙核 對某幾個章節,讓內容更準確清楚,在此感謝 Alastair Middleton、Leah Band、Tom Gallagher 和 Kim Kenobi 的協助,尤其是感謝 Jane Hodgman(同時也校對許多章節)。我們也一併致謝 植物整合生物學英國中心(UK Center for Plant Integrative Biology)的成員們,在出版前提供許 多顯微影像。讀者也許會發現一些重複之處,不過為了內容的清楚,還是保留這些重複。最 後,我們希望學生和教師們都能夠領會這門學科的廣博,同時也喜愛這本書。
ix
1 日新又新的生物學研究 (The Changing Face of Research Biology)
重點摘要 導論 (Introduction)
一切皆和分子有關 (Molecules with everything)
生物學研究日益多樣化,各領域也越來越專門。但從 1970 年代中期開始, 有四項技術發展改變了研究進行的方式,在此將一一探討。 對於查明生物的各種生理機制,分子生物學加上遺傳學,幫助很大。從基礎 的生化作用,到幾乎所有生物學上的特化作用,都助益甚多。
微型化和自動化
生物科技學家已經發展出許多方法,從越來越小的生物樣品中,獲得越來越
(Miniaturization and automation)
多的資訊,而且方法還在持續增加中。自動化機械設備的出現,使得實驗結 果更具一致性,而且能處理大批樣品,這就是所謂的高通量技術。
影像分析 (Image analysis)
為了確實處理由這些技術產生的大量資料(每個樣品好幾 MB),原始輸出結 果通常含有可供電腦程式解讀的影像資料。
計算與統計建模
必須使用一系列的統計分析方法,才能從高通量技術產生的大量資料中,決
(Computational and statistical modeling)
定生物學研究對象(基因、蛋白質等)的個別和整體性質。這些研究對象彼此 間交互作用決定生物的各種生理現象。這些生理現象能以各式各樣的計算方 法來表示,最簡單的例子是生化、調控和遺傳所形成的網路。不過,這些生 理現象(或說系統)的動力學和量化反應,也能用更複雜的數學方法來表示。 這些模型可以用來執行電腦模擬的假設實驗,而模型的好壞則取決於它的模 擬能力,特別是預測系統行為的能力。只有在近代威力強大的電腦下,這些 模型才得以實作出來。也就是說,現在生物學將越來越像物理學,理論生物 學家越來越多,未來說不定超過實驗生物學家。
研究實務新角色
這些技術改變使得生物學家得花更多時間分析資料,而進行實驗的時間卻越
(Consequences for research practice)
來越少。同時也迫切需要專家來處理和解讀這龐大的資料,方法不僅要迅 速,而且還要具備生物學上的意義,我們稱這些人為生物資訊學家,第2章 會用一系列的定義,簡短介紹這門學科的歷史。
1
2
生物資訊學定義 (Definitions of Bioinformatics)
重點摘要 導論 (Introduction)
最初的起源 (Antediluvian origins)
英國皇家所下定義 (Royal definition)
標準定義 (Canonical definition)
生物資訊學是門新興學科,其涵蓋範圍日益擴大,重要性也日益增加。這一系 列的定義有助於了解本學科的演進歷史及不斷出現的驚奇事物。 生物資訊學這個名詞始於 1968 年,而生物資訊學課程內容則在 1978年首 次問世,比起導致生物資料大量出現的技術都還早。 1990 年代中期,這個學門激起很多討論,強烈贊成到強烈反對的意見都 有。偶爾,錢花得比應該花的還多。 生物資訊學為介於生物學、資訊科學和數學之間的學科,這樣的定義延伸了 這門學科的涵蓋範圍,從生化分子序列與結構的分析,到各式各樣生物資料 的處理(生化分子各種特性、交互作用、族群學和細胞生物學)。大家不難察 覺,這門學科是跨領域的,而生物資訊學家的工作是解讀資料。
功能性定義 (Functional definition)
政府部門的定義 (Public services definition)
相關章節
導論 (Introduction)
這裡說明大家使用生物資訊學是想努力了解些什麼,以及此學科的基礎知識 如何支持其研究活動。 這個冗長的定義試圖涵蓋本學科的所有範疇,包括它和其他領域資訊學的關 聯性。 ●
第 3 章 基本物理學
●
第11章 轉錄體學
●
第 4 章 資料與資料庫
●
第12章 蛋白質與蛋白質體學
●
第 5 章 資料類別
●
第13章 代謝體學
●
第 6 章 計算
●
第14章 超分子組織結構
●
第 7 章 機率與統計
●
第15章 生化動力學
●
第 8 章 建模與數學方法
●
第16章 生理學
●
第 9 章 人工智慧與機器學習
●
第17章 影像分析
●
第10章 基因體與其他序列
●
第18章 文本分析
如同其他新興學科,生物資訊學的定義也是眾說紛紜,不過隨著大家 對此學科的了解日漸增加,這些定義也隨時間不斷演化改進。這裡除了介 紹大家所公認的定義外,也會介紹一系列的定義,以便了解其演變歷史。
7
3 基本物理學 (Essentials of Physics)
重點摘要 質量守恆定律 (Conservation of mass)
熱力學 (Thermodynamics)
本定律說明系統總質量維持恆定。也就是說,在所有生物反應方程式中,反 應物質量必然等同於產物質量。 熱力學第一定律很類似前一個定律,旨在說明封閉系統的能量維持恆定。意 思是,化學反應所釋出的能量會以熱的型式呈現,反之亦然。熱力學第二定 律則是說,系統尚未達成平衡前,熵持續不斷增加,直到系統達成平衡為 止。第二定律對生物學意義重大,它告訴我們,大分子傾向於分解成較小 的片段(熵增加),而大分子的合成則需要耗費能量,以彌補熵的減少。而 熱力學第三定律則是說,熵隨溫度的降低而減少(在絕對零度時達到極小 值),因此大分子在低溫時通常比較穩定。第三定律也被應用在電腦最佳化 的計算方法上,最常見的是模擬退火的計算。
物理定律在 計算上的應用 (Applications of physical principles in computing)
物理定律在電腦計算的應用主要有二:第一是電腦元件溫度上升時,計算效 能將受到限制。第二是可將物理定律寫入演算法中,以增加效率。如模擬退 火搜尋法(模擬冷卻的物理過程),可避免搜尋結果只找到局部最小值。
物理學研究的方法
幾個世紀以來,物理學研究一直遵循一個名為「歐卡姆剃刀」的原則,它很
(Approach to physics research)
清楚指出,我們要盡可能減少和簡化所使用的要素與觀念,盡可能單純化對 應關係,越簡單越好。只有當簡單描述已不敷所需時,才會將它弄得更複雜 些。
相關章節
導論 (Introduction)
●
第6章 計算
物理學是生物學的基礎。所謂的物理系統(physical system)是指, 通常在一定體積下,一群物體內含能量,彼此互動。我們可用數學方 程式簡單描述這些系統,以說明它們狀態或行為上的數量變化。這些方 程式可用人類的表達語言擴展成定律(law)和理論(theory),有時稱呼這 些方程式為「模型」(model)。由於生物的各項生理過程可視為溫和條 件下發生的物理過程,也必然遵循這些物理法則,因此了解物理學的基 本觀念有助於了解生物系統及其生理過程的運作。除了介紹一些重要的 物理學定律外,我們也會約略說明,物理學家們採取什麼方法來獲得新 13
4 資料與資料庫 (Data and databases)
重點摘要 數位資料 (Digital data)
表示數字 (Representing numbers)
表示文字 (Representing text)
表示整組資料 (Representing groups of data)
資料模型 (Data model)
資料庫 (Database)
本體論 (Ontologies)
數位資料最低階的儲存格式是二進位制,由位元(零和一)、位元組(八個連 續的位元)和字組(中央處理器一次處理的資料量)所構成。 採用整數或帶有小數的十進位制數字(通常指浮點數),整數的格式非常節省 記憶體空間,而且算數運算更有效率也更為準確。如果定義上需要,還得使 用一個位元表示數字的符號(+ 或 -)。依照不同精確度,浮點數通常需要 32 個或 64 個位元。 一個位元組(現今則是多個位元組)代表一個鍵盤符號,也包括不可印出的字 符,如空白鍵、歸位鍵和跳格鍵。早期單個位元組的字符集包括 ASCII,而 現在最多四位元組的萬國碼轉換格式,則包括許多其他語言的字母(俄羅斯 文、希伯來文),還有東方語系和其它語系。 形態類似的資料為了共同目的而歸類在一起時,可儲存成陣列、雜湊或是兩 者兼具的方式。這些資料的個別元素可用數字編號,或是用文字標記。現代 的程式語言允許資料型態互相嵌合,以組成相當複雜的資料結構。 對於複雜的資料集合,若想提升儲存和查詢的效率,就需要了解資料元素間 相互關係。資料模型就是在定義資料元素、屬性與其相互關係。起初,這些 資料結構以統一建模語言表示,而其資料內容則以可擴展標記語言儲存。 XML是現今非常廣泛使用的資料標準,其下有好幾種常見標準,例如超連結 標記語言(互聯網的定義語言)。 以有效率的方式儲存和存取大量資訊需要資料庫。主要的資料庫管理系統型 式有兩種,關聯式資料庫,由一組相互連結的表格所組成,就像一組相互連 結的試算表表格;若資料元素多,屬性卻不多,則另一種物件導向式資料庫 比較有用。另外,導入大型物件到關聯式資料庫的結果,就產生所謂的物件 關聯式資料庫。 有一種階層式方法可將觀念和知識組合起來,變成一組彼此相連的物件,各 有其定義。在生物資訊學領域,最廣為使用的可能就是基因本體論。
19
第
5 章 資料類別(Data categories)
5-1
資料類別 (Data categories)
重點摘要 維度
資料具有維度,代表資料的空間對應,或資料之間的相互關係。
(Dimension)
零度維度資料 (0-D data)
一度維度資料
和其他資料不相關而獨立存在的資料點,是為零度維度,例如整數、字母、 布林資料…等等。 由一「串」的資料點依序組成,如表示核苷酸和胺基酸的序列、SMILES…等。
(1-D data)
二度維度資料
資料具有空間性,例如影像、NMR 電磁頻譜資料…等。
(2-D data)
二度半維度資料 (2.5-D Data)
三度維度資料
資料在電腦的儲存方式是二度維度矩陣,但可以用三度維度或高度維度描繪 生物研究實體,例如 PDB 資料記錄。 具有 3-D 空間性的資料,例如影像立體像素、電子密度分布圖…等。
(3-D Data)
地理資訊系統 (Geographic Information System,GIS)
相關章節 維度 Dimensions)
通常,GIS 分析和視覺化相關於地球的資料。不過,這些方法和工具同時也 被應用在大型、多度維度的生物資料集合。 ●
第4章 資料與資料庫
生物資料的資料形態(data type)包羅萬象,有數值資料,有分子、 細胞和組織的描述,還有影像資料…等等,不同資料來源通常都有其最 適合的資訊表示方法。資料可看成是具有維度(dimension),例如單獨 的整數可當成是零度維度(0-dimensional,0-D)。 另一方面來說,由一串零度維度的組成元素依序接在一起的資料稱 為一度維度(1-D),一度代表線性。影像則是二度維度(two-dimension) 的例子,影像上某一點位置可用二度維度的座標表示,橫軸和縱軸座標 表示此資料點對映到橫軸和縱軸上的位置。不過接著會看到,儲存資料 所用的維度數目,不必然對應到物理世界的實際維度,可運用一些技巧 將高維度資料存入陣列(array)和二維矩陣(2-D matrices)。 前一章已經看過電腦中的資料是如何編碼,這一章我們將會介紹一 些生物資訊學上更為常見而且有趣的資料結構範例,本章將依照維度數 29
6
計算 (Computation)
重點摘要 中央處理器 (Central processing unit)
內部記憶體 (Internal memory)
中央處理器主要由兩部分組成:控制單元和邏輯運算單元。前者存取和執行 指令,指令為基本的運算,如加、減法。後者執行數字計算和邏輯測試。 CPU 的內部記憶體,本身結構類似陣列,個別元素稱為暫存器,CPU可將小量 資料儲存於此,以便進行運算,此處的存取速度比主記憶體快很多。通常暫存 器也依照用途不同分為很多種,例如儲存資料的資料暫存器、儲存記憶體位 址的暫存器、維持堆疊資料結構的堆疊暫存器…等等。
機器程式碼 (Machine code)
CPU 的控制單元執行機器程式碼指令,機器程式碼實質上是二進位制程式 碼,先以人類可記憶和理解的組合語言寫好,再轉成機器程式碼。不同的處理 器類型通常有其專屬的機器程式碼格式,因此機器語言又稱為原生程式碼。
高階程式語言 (Higher-level language)
和機器程式碼不同,高階語言的風格比較接近人類的自然語言。因為它們和 機器程式碼不相關,因此高階程式語言通常可在不同平台使用,但也可在特 定平台轉成機器程式碼。本書介紹的例子是 Java、C++、Perl 和 PHP。
物件導向程式設計
Java 和 C++ 都是物件導向式,意思是資料和操作命令都可以封裝在「物
(Object-oriented programming)
件」內,而物件彼此能相互溝通。物件以類別定義,內含的資訊包括:可以 儲存何種資料,以及操作資料的方法。
指標 (Pointers)
正規表達式 (Regular expression)
指標指示資料的所在位置。相較於傳遞實際資料,傳遞指標到副常式或物 件,可節省相當可觀的處理時間。 正規表達式是一種描述搜尋樣式的方法,可找出符合樣式的文字字串。此方 法使用文字字符、萬用字元和特殊字符的排序組合,讓使用者可以明確指定 想搜尋的文字內容是什麼。
軟體版本管理 (Software versioning)
開發軟體時,最好把軟體的發展過程劃分為一定數目的階段。使用主版本代 號、次版本代號、「alpha 版」、「beta 版」和「釋出候選版」等標籤記錄, 可記錄這些開發階段。CVS 軟體可作為管理軟體版本的方法之一。
37
第
7 章 機率與統計(Probability and statistics)
7-1 機率與機率分布
(Probability and probability distributions)
重點摘要 機率
機率是生物資訊學的重要觀念,對於解釋生物資料是不可或缺的。
(Probability)
聯合事件的機率
兩者互為獨立事件時,使用乘法律,P(A and B) = P(A)P(B),這在很多機
(Probability for combinations of events)
率理論的應用上都很重要。另外一個重要公式是:兩者為互斥事件時,P(A or B) = P(A) + P(B) 以及 P(not A) = 1 – P(A)。
機率分布與密度函數
機率分布就是數學函數,表示變數在某個特定值的機率,或落於某一範圍特
(Probability distributions and density functions)
定值的機率。最簡單的例子就是二項式分布,表示在 n 次試驗中,成功 r 次 的機率,每次試驗只能有兩種結果,成功(機率 = p)和失敗(機率 = 1 - p)。 這也適用於連續多次擲硬幣,出現正面的次數
Poisson 分布 (The Poisson distribution)
如同二項式,這也是個函數,表示事件發生次數的機率,不同的是以參數 E (發生次數的期望值)表示。當試驗次數非常大、每次試驗的成功機率非常小 時,Poisson 分布可作為二項式分布的近似值。
常態分布
這是數學函數,可表示變數在連續數值(實數)的機率。通常表示為鐘形的機
(The normal distribution, 或稱 Gaussian 分布)
率密度函數,有兩個參數,平均值和標準差。密度函數曲線下的面積即為機 率。這在統計理論中,地位十分重要。
相關章節
●
第 7 章:7-2 條件機率與貝氏定理
●
第 7 章:7-3 基礎統計檢定
●
第 9 章:9-2 人工智慧與機器學習的統計方法
●
第10章:10-1 資料庫與原始資料
●
第11章:11-1 轉錄產物特性分析
●
第13章:13-2 交互作用蛋白質體學
統計關注的是變異性(variability)和不確定性(uncertainty)。長久 以來,統計都是生物科學的重要角色,因為生物個體差異是演化理論 的基礎。不過在物理科學,統計也同樣重要,力學量子理論(quantum theory)的本質是機率,統計力學(statistical mechanics)則用於處理大 型系統的熱力學特性。一般來說,大多數科學家使用統計方法處理實 49
7-2 條件機率與貝氏定理 (Conditional probability and Bayes’ rule)
重點摘要 條件機率 (Conditional probability)
這裡介紹的概念是,事件的發生可能並非互相獨立。這種情況下,一個事件 (A)的發生會影響另一個事件(B)的機率,此概念以 P(B | A)表示,代表假 如 A 事件已發生,則 B 事件發生的機率為多少。在此概念下,機率的乘法 律將改為:P(A and B)=P(A)P(B | A)。
貝氏定理
將前一小節的乘法律公式重組可得:P(A | B)= P(A)P(B | A)/P(B)。
(Bayes’ rule)
貝氏統計
這裡使用機率的主觀詮釋角度,廣泛應用前一小節的貝氏定理,其應用型式
(Bayesian statistics)
為 P(H | D)=P(H)P(D | H)/P(D),A 代表假說 H,B代表其他觀察或資料 D。此公式把假說是否成立的事前機率 P(H),和假說受到其他觀察資料影 響後的事後機率 P(H | D),聯繫在一起。
Markov 鏈模型 (Markov chain models)
這些是很方便的統計工具,可對序列的狀態進行建模,例如 DNA 序列內的 字母順序。在序列中,某一個位置的字母是什麼,將視前一個位置的字母是 什麼而定。因此,可針對生物分子序列,建立鄰近字母相關性的模型。
相關章節
條件機率 (Conditional probability)
●
第 7 章:7-1 機率與機率分布
●
第 7 章:7-3 基礎統計檢定
●
第10章:10-3 序列分析
●
第10章:10-4 序列家族、比對與親緣關係
●
第11章:11-4 多變量方法與網路推論
7-1介紹過運用乘法律計算獨立事件的機率: P(A and B)=P(A)P(B) 假如涉及到的兩事件並非互相獨立(例如,兩事件彼此影響對方, 一個事件的結果將改變另一個事件的機率),公式會變成: P(A and B)=P(A)P(B | A)=P(B)P(A | B) 本公式中,P(B | A)意指,假如 A 事件已明確發生,則 B 事件的機 率為何。同樣的,P(A | B)意指,假如 B 事件已明確發生,則 A 事件的 機率為何。務必要理解 P(B | A)和 P(A | B)是代表不同的事情,有不同
56
7-3 基礎統計檢定
(Elementary statistical testing)
重點摘要 統計與變異性 (Statistics and variability)
統計顯著性檢定 (Testing statistical significance)
t 檢定和其他選擇 (The t-test and alternatives)
變異數分析 (Analysis of variance, ANOVA)
卡方檢定和費雪 精確度檢定 (Chi-squared and the Fisher exact test)
基於重新採樣的檢定 (Resampling-based testing)
多重檢定 (Multiple testing)
相關章節
基本上,統計是關於資料變異性的處理,並找出變異性的來源。在生物學, 要可以量化不同來源的變異性,包括實驗本身誤差、同一物種不同個體間差 異和環境變異。 統計顯著性檢定的目標是區分,觀察到的現象是因為隨機性的結果,還是具 有實際的生物意義。 t 檢定的目標是測試不同組的常態分布資料的平均值,是否有顯著差異。若 資料並非常態分布,可改用 Wilcoxon 檢定和 Mann-Whitney 檢定。 變異數分析的目標在於,當實驗不只兩組資料(t 檢定只能處理兩組資料), 針對分組資料的平均值差異,量化其統計顯著性。 這些檢定是用在離散型、「可數的」資料,通常以列聯表方式表示。檢定的 目標為,在每個資料類別中,虛無假設成立的預期數目,和觀察到的實際數 目間,其差異值是否具有統計顯著性。 這是大多數統計檢定的替代方案,方法通常是,在虛無假設成立下,重新隨 機分組,以算出 p 值。 執行超過一次的統計檢定時,修正多重取樣非常重要,因為多重取樣會產生 夠小但錯誤的 p 值。修正方法包括Bonferroni 校正法和Benjamini-Hochberg 校正法。 ●
●
●
●
●
●
第 7 章:7-1 機率與機率分布 第 7 章:7-2 條件機率與貝氏定理 第10章:10-3 序列分析 第11章:11-2 轉錄體分析的統計問題 第11章:11-3 解析基因表現程度差異 第11章:11-4 多變量方法與網路推論
這節內容簡短介紹生物資訊學領域常用的統計檢定和統計方法。 本節內容既非全面性的統計介紹,也不足以作為學習統計問題的詳細教 材。想更深入了解統計學的讀者,請參閱專門的統計教科書。 61
第
8 章 建模與數學方法(Modeling and mathematical techniques)
8-1 系統屬性 (System features)
重點摘要 生物系統 (Biological systems)
生物系統是「生物研究對象」的集合體,尺度大小從分子到生物族群都有, 其交互作用方式可視為一個總體的功能或角色。這些總體行為可對應到生理 現象、流行病學和族群生物學。
模型 (Models)
系統屬性 (System features)
抽象化
模型是某些生理現象或是研究實體的簡化表示法,可在特定狀況下描述其 行為。 在各種選擇方案中,可選擇各種屬性,作為系統的特性。至於使用何種建模 方式,乃是依照你研究的系統適合哪些選擇而定。 抽象化是個過程,將某些生物生理現象,對應到可用數學詞彙表達的一組觀念。
(Abstraction)
相關章節
●
第8章:8-2 圖形理論及其應用
●
第8章:8-3 常微分方程與代數學
●
第8章:8-4 高等建模方法
●
第8章:8-5 形狀、變形與生長
前一章介紹的是,可從生物研究實體的資料集合中,擷取出意義 的統計方法。在本章的五節內容裡,我們將仔細研究更多可用以表示生 物系統內事物發生過程(例如建模)的數學方法。不過,在進入細節內容 前,必須掌握關於系統(system)的一般概念。 生物系統 (Biological systems)
生物擁有形形色色的生命特徵:消化、排泄、呼吸、感覺、生 殖,生長和移動,這些生命特徵在細胞層級涉及到分子和多分子複合 物(multi-molecular complex),彼此之間的互動和化學反應。另外,較 高等生物的生理現象也是透過各式各樣的交互作用才得以進行,包括 環境對生物的影響,還有生物族群層級的交互作用。個別的生理現象 可視為一個生物系統(biological system),最簡單的情況可能只包括單 一酵素或環境受器(environmental receptor),大多數的情況則是,生物 系統這個詞彙從一般和特定數學意義上來說是更為複雜的。而且,某 個物理尺度(例如動物或植物)的生理現象,會影響另一個不同尺度(例 如酵素活動)的生理現象,同時也會被影響,這讓事情更顯複雜。這和 69
8-2 圖形理論及其應用 (Graph theory and its applications)
重點摘要 圖形 (Graph)
若以數學描述,圖形是一組邊連結節點而組成的假想結構。包含循環路徑或 是其他選擇路徑的圖形,越來越多人稱之為網路。節點和邊可帶有一系列的 特質,稱為色彩,特質也可帶有數量值,稱為權重。描述代謝訊號傳導或是 基因調控路徑時,生物學者通常以圖形方式思考。
圖形的電腦表示法
在電腦中,圖形幾乎毫無例外都是以各種矩陣方式表示,包括相鄰矩陣、相
(Computer representation of graphs)
鄰串列和化學計量矩陣。有很多電腦程式可展示圖形或網路,以便更容易看 出其結構和顯著屬性。
網路拓樸和性質
網路的總體拓墣或許是隨機的,也或許有特定性質使得網路更強固,在變動
(Network topology and properties)
下仍維持穩定。如同網際網路,生物學上的網路也是無尺度的拓樸。和參與 的節點數目相比,這些網路的半徑非常小。
多尺度表示法 (Multi-scale representation)
節點所代表的生物學研究實體,不一定在相同的尺度上。一個節點或許代表 分子,而另一個節點也許代表細胞或組織,連結此兩者的邊表示分子對該細 胞/組織具有功效。
Petri 網路和 P 系統 (Petri-nets and P-systems)
相關章節
圖形 (Graph)
這裡是一些特別的圖形類別,也有相關軟體可使用。這些模型方法在電腦科 學界特別受到歡迎,希望能用在很多的生物生理過程上。
●
第11章:11-1 轉錄產物特性分析
●
第12章:12-2 轉錄體分析的統計問題
●
第15章:15-1 代謝的網路研究
●
第16章 生理學
以數學角度來說,圖形(graph)是由一組位置所組合而成的結構, 每個位置稱為節點(node)或頂點(vertex,複數形 vertices),經由一組 線段(稱為邊、連結或弧(edge、link或arc))連接起來。從某一節點出 發又立即回到該節點的邊,稱為連結同一節點的邊 ( self-edge ) 。許多 生物教科書將代謝過程和調控過程以圖形方式描述;節點代表代謝物 (metabolite),連結節點的邊代表酵素。事實上,從數學角度來看,
72
8-3 常微分方程與代數學 (Ordinary differential equations and algebra)
重點摘要 連續變化 (Continuous changes)
變化速度的 數學表示法
本小節關注的並非階段變化,而是平滑變化。處理的數量並非是純整數,而 是實數。 本小節介紹微分的導數概念,並引入其數學表示法。
(Mathematical representation of rates of change)
聯立方程組 (System of equations)
一組交互作用可用一組方程式表示(每個交互作用一個方程式),也稱為系統 方程式。這些方程式看起來很難解,不過用新軟體解方程式很容易,無須知 道隱藏在程式內的相關計算。
聯立方程組的解
有各種計算方法可解聯立方程組。有些方法可求得正確解,有些方法則是用
(Solution of system of equations)
趨近法求得近似值,稱為數值方法。如果模型的所有組成成分,都是可增可 減的,這種模型稱為平衡模型,方程組的解可求得穩定狀態的濃度。如果是 非平衡系統,會有一個或數個組成成分不斷生成,直到系統受質完全消耗完 畢為止。
相關章節 連續變化 (Continuous changes)
●
第15章:15-2 微積分與代數的使用
前一節概述如何使用離散型(discrete)數學方法表示生物系統,本 節關注的是連續型(continuous)的變化,並開始介紹生物系統的量化行 為。這兩者的差別在於,若以酵素為例,一個是酵素催化某特定反應的 定性描述(例如,透過 Petri 網路的標誌,描述參與的分子數目。)。另 一個則是,一定量莫爾數的受質分子,被催化成產物的速度有多快。再 舉一個生物學上大範圍尺度的例子,量化行為可以是,從隱含在食物網 的捕食者/獵物(predator-prey)關係中,計算族群大小的變化速度。
變化速度的數學 表示法 (Mathematical representation of rates of change)
某事物相對於其他事物,最佳的數量變化速率表示方法是微分方 程。其值可隨之變化的東西,稱為變數(variable)。(例如代謝物濃度、 細胞體積、神經脈衝傳導速度、族群大小…等)x 和 y 在高中數學裡通 常代表的是全然抽象的變數,但也可以使用其它更具意義的變數符號。 79
8-4 高等建模方法
(Advanced modeling techniques)
重點摘要 多重相依性 (Multiple dependencies)
隨機交互作用 (Stochastic interactions)
當某個變數相依於一個以上的自變數時,就需要偏微分方程。再佐以其它的 代數方法,可用來表示擴散、平流和反應擴散系統。 當過程含有不確定性,或是某事物的發生相對於其他事物,具有真正的隨機 性,這些過程稱為隨機過程。這些過程可用離散型模型表示,也可用連續型 模型表示。不過,這些模型的模擬過程需要進行很多次,以便得知各種不同 行為的統計資料。
滲漏與相關過程
當媒介中的阻礙物到達相當密度後,滲漏作用會影響物體的流動。此過程可
(Percolation and related processes)
用所謂的分數微分方程來建模,另外還有其他的數學變化型式,例如滲漏效 應和酵素動力學的結合。
相關章節
多重相依性 (Multiple dependencies)
●
第 9 章:9-3 人工智慧與機器學習的計算方法
●
第15章:15-2 微積分與代數的使用
當某個變數相依於(dependent)一個以上的自變數,這時需要另一 種數學:偏微分方程(partial differential equation,PDE)。此方法可用 在很多生物現象的建模上,包括:擴散;系統內物質(代謝物、細胞… 等)的流動,例如相連的細胞之間或是血管內;細胞和組織的生長與變 形。舉個實用的例子來解釋偏微分方程的應用,是關於抗生素從培養皿 上的真菌菌落生長處向外擴散的例子。培養皿上任一處的抗生素濃度是 相依於很多變數,包括和菌落的距離、真菌菌落外圍鄰接處的抗生素濃 度、擴散速率、時間和溫度。若以數學表示,則: 〔抗生素濃度〕=f(距離,表面濃度,擴散速率,時間,溫度) 或是 A=f(x, C, D, t, T) f(x, C, D, t, T)是某個未知的方程式。 有些模型所提供的 PDE,必須解它以求得 f,不過,通常解偏微分 方程的程序十分複雜。對實驗來說,若能把很多變數設定為常數,數學 計算過程就能簡化許多。例如,如果表面濃度、擴散速率和溫度維持固 83
8-5 形狀、變形與生長 (Shape, deformation and growth)
重點摘要 形狀 (Shape)
有些已建立的方法可用以大致估計複雜的形狀,方法是定義通過表面或是穿 越物體的節點和邊。這些節點和邊將形狀分割為有限數目的元素,然後用方 程式組代表這些元素,以建立有限元素模型。
變形
物理力量作用在物體上,可導致形狀改變,這些模型可用以研究其效應。
(Deformation)
生長 (Growth)
在這種情況下,變形模型將更複雜,其模型理論的代數也將更為複雜,必須 包含控制生長速率的項目。進一步來說,在生物學上可能也希望可以模擬細 胞(或一群細胞)的分裂,或是分化成不同的細胞型態。
相關章節
●
●
●
形狀 (Shape)
第 5 章 資料類別 第 8 章:8-4 高等建模方法 第16章:16-2 整合生物學與植物建模
第5章介紹過形狀的表示法,這裡將更深入些,複雜的曲線形狀也 能以圖形方式作大致估計。也就是說,物體可用一系列 2-D 或 3-D 座 標的節點表示,節點之間以直線或邊連結起來。描述表面時,節點連結 成三角形或是四邊形,描述固體時,節點通常連結成立方體。此類圖型 有時稱為網格(mesh)。圖形的彎曲度越大,節點就得越靠近,才能比 較正確表示圖形。所以節點數目(數目越少,模型的分析或模擬就越快) 和模型正確度之間總是會有取捨(trade-off)。 關於如何自動化定義網格組成元件(元素)的大小和形狀,已經有很 多相關研究,這一類的活動稱為有限元素分析(finite-element analysis) ─ 這個稱呼是因為模型只會產生有限個數目的元素,用以模擬形狀, 並且維持一定程度的準確性;只有無限數目的元素才能完全定義物體的 形狀。如果關注的只有物體的表面部分,類似的方法稱為邊界元素分 析(boundary-element analysis)。網格每個元素當然都可各自擁有不同 的特性,因而產生有限元素(finite-element,FE)和邊界元素(boundaryelement,BE)模型。這些方法在機械工程學領域應用非常廣泛(Becker, 2003年),不過在生物學領域,應用實例仍是少數(參閱第15章)。
86