李小凡
Xiaofan Li
Cambridge Computational Biology Institute (CCBI)
Department of Applied Mathematics and Theoretical Physics (DAMTP), University of Cambridge, CB3 0WA, United Kingdom
本文接受任何形式的轉載和轉發(fā),但請保留文章標題和內容的完整性以及作者署名信息
從數學(xué)第一次嘗試介入解決分子生物學(xué)問(wèn)題開(kāi)始算起,至今已經(jīng)有大概四分之一個(gè)世紀了。所以,所謂 “生物信息學(xué)” 和其近親“計算生物學(xué)”,并不是如人們想象的那樣新興。在上世紀 70 年代,已經(jīng)開(kāi)始出現針對核苷酸序列比對算法的研究,其基礎就直接來(lái)自于計算機算法研究的發(fā)展-動(dòng)態(tài)規劃 (Dynamic programming),即在兩個(gè)長(cháng)度為 N 和 M 的序列正交形成的 N x M 的矩陣中,對每一個(gè)元素 (i,j) 根據某種機制打分,并在打好分的 N x M 中尋找一條自左上至右下得分之和為最小的路徑,即最短路徑,又即最佳比對方案。值得一提的是,動(dòng)態(tài)規劃并不只適用于序列對比,用遞歸算法實(shí)現動(dòng)態(tài)規劃的思想,最初就是用來(lái)解決諸如 Travelling Salesman, 背包問(wèn)題及其派生出的優(yōu)化問(wèn)題的。
自 80 年代開(kāi)始,序列信息開(kāi)始成倍的增長(cháng),因為測序技術(shù)在這個(gè)時(shí)間得到了相當大的發(fā)展。另一方面,計算機的計算和存儲能力在這 10 年內迅速提高,給各種數學(xué)理論在分子生物學(xué)中的應用奠定了硬件基礎。畢竟,生物的復雜度要遠遠超過(guò)自然,用筆來(lái)計算生物學(xué)中的規律,是絕無(wú)可能的(這也是 19 世紀末 20 世紀初理論物理和如今“理論生物學(xué)”的顯著(zhù)區別之一)。生物系統是非線(xiàn)性的,隨機的,這就決定了數學(xué)在生物學(xué)中的介入,以數值問(wèn)題和隨機過(guò)程為主;而在其他學(xué)科,如微觀(guān)經(jīng)濟和理論物理中的數學(xué),往往是分析問(wèn)題。對于依賴(lài)數值解,時(shí)間復雜度又相當高的問(wèn)題,使用計算機是唯一的解決方案。真正意義上的生物信息學(xué)和計算生物學(xué),就基本上在此時(shí)誕生了。另一方面,分子生物學(xué)上取得的進(jìn)展,尤其是用于測定蛋白質(zhì) 3D 結構的 X 射線(xiàn)晶體分析 (X-ray crystallography) 和核磁共振 (Nuclear Magnetic Resonance, NMR) 技術(shù)的進(jìn)步,使得生物學(xué)者對蛋白質(zhì)結構和其序列之間的關(guān)系有了更加清晰的印象。而蛋白質(zhì)結構域又往往與其生理功能相適應,這就給分子生物學(xué)中的幾大類(lèi)研究建立了聯(lián)系,即功能研究依賴(lài)于結構研究,結構研究又依賴(lài)于針對蛋白質(zhì)序列的分析。再加上 Watson-Crick 中心法則,使蛋白質(zhì)序列與基因序列相關(guān),就形成了研究生物學(xué)“主流”問(wèn)題的一整套體系。雖然依據這種思路的實(shí)驗方法在 80 年代就已經(jīng)相對完善,但直到以隨機過(guò)程和概率論為先鋒的數學(xué)開(kāi)始介入其中之后,這個(gè)體系的內在聯(lián)系與規律才開(kāi)始被真正揭示出來(lái)。所謂“生物信息學(xué)”和“計算生物學(xué)”,實(shí)際上應當歸納為“理論生物學(xué)”。不過(guò),理論生物學(xué)一詞目前還較少提及,因為直至今日,在生物學(xué)研究里,仍然缺少?lài)烂?、規范、完整的理論體系。但是,從彼時(shí)起,我們至少已經(jīng)開(kāi)始在正確的道路上前行。
時(shí)至 90 年代,個(gè)人計算機性能的再一次爆棚,使得處理生物學(xué)中復雜序列問(wèn)題的金錢(qián)和時(shí)間成本又一次大大降低,許多原先由于過(guò)于復雜而不可實(shí)現的算法,在快速 CPU 和大容量?jì)却娴闹С窒碌靡暂p松運行。最顯著(zhù)的例子就是 BLAST 算法與序列數據庫在過(guò)去 15 年中的“協(xié)同進(jìn)化”。BLAST (Myers & Miller, 1990) 是動(dòng)態(tài)規劃解決序列問(wèn)題最著(zhù)名的一個(gè)實(shí)現版本,派生出無(wú)數應用,如位于 NCBI 基于 GenBank/UniProt 的各種 BLAST 搜索引擎,又如各種獨立的 BLAST 小程序等。在生物信息學(xué)剛開(kāi)始為普通大眾所知的年代里,BLAST 與 NCBI 幾乎成了該學(xué)科的代名詞,以至于很多人(包括相當多的生物學(xué)家)認為,生物信息學(xué)就是測序,BLAST, 測序,BLAST, 測序,BLAST! 誠然,90 年代對這個(gè)領(lǐng)域來(lái)說(shuō),是數據爆增的時(shí)代,因此針對數據存儲和直接搜索的應用顯得尤為重要,如各種各樣的數據搜索工具和序列比對程序。另一個(gè)所謂生物信息學(xué)程序包,EMBOSS,在這個(gè)時(shí)代也逐漸被豐富和完善。EMBOSS 由很多小程序組成,每個(gè)程序能根據給定的一個(gè)序列計算這個(gè)序列的某一個(gè)屬性,如計算 GC 含量,尋找 CpG 島,預測內含子剪接位點(diǎn),等等。這些應用也確實(shí)屬于生物信息學(xué)范疇,但是在如今的觀(guān)點(diǎn)看來(lái),只能說(shuō)是相當基礎的應用了。實(shí)際上,這些小程序只是手工處理序列信息的自動(dòng)化版本,他們除了作為“計算器”給分子生物學(xué)家提供了更快獲得序列某種屬性的途徑之外,并沒(méi)有產(chǎn)生更多的價(jià)值,也沒(méi)能將生物信息學(xué)從“工具”轉化為獨立的研究方向。
生物信息學(xué)真正作為一門(mén)獨立而有重要作用的學(xué)科,始于其計算生物學(xué)分支在 90 年代的發(fā)展。不同于廣為人知的 DNA 和基因,這個(gè)分支是從研究蛋白質(zhì) 3D 結構開(kāi)始發(fā)展的,即從結構生物學(xué)入手。在相當長(cháng)的一段時(shí)間內,甚至直到今天,許多生物學(xué)者理解的結構生物學(xué),就是指用 X 射線(xiàn)晶體分析和核磁共振 (NMR) 測定蛋白質(zhì)結構,這也是多數結構生物學(xué)實(shí)驗室如今仍然在做的事情。用于儲存這些測定好的結構的數據庫,PDB (
http://www.pdb.org), 至今已有數萬(wàn)條記錄。對于某些熱點(diǎn)蛋白質(zhì),PDB 里往往會(huì )有不同實(shí)驗室在不同時(shí)間用不同方法測定結構而提交的不同記錄,比較這些記錄的共同點(diǎn)與差異,往往會(huì )有對于這個(gè)結構本身相當重要的發(fā)現。另一方面,雖然蛋白質(zhì)結構測定技術(shù)與 70 年代已不可同日而語(yǔ),但結構的測定速度永遠趕不上測序的速度,也就造成了 PDB 的記錄在 GenBank 和 UniProt 中的對應序列記錄占序列總數的百分比反而越來(lái)越少。這就使得人們開(kāi)始考慮,是否能通過(guò)已知的結構和序列,通過(guò)歸納某種方法,能夠根據測序結果推知未知蛋白的結構?我們可以假設這個(gè)方法為 f, 已知序列為 x_0, 對應的已知結構為 y_0. 我們希望能從 y_0 = f(x_0) 中歸納出 f, 從而求出對任意 x 的 f(x),即對應任意既有序列的結構。從數學(xué)的角度看,這是一個(gè)非線(xiàn)性分類(lèi)問(wèn)題;用計算機科學(xué)的語(yǔ)言來(lái)說(shuō),這是一個(gè)模式識別問(wèn)題;用人工智能和機器學(xué)習領(lǐng)域的觀(guān)點(diǎn),這是一個(gè)分類(lèi)器的學(xué)習問(wèn)題??陀^(guān)的說(shuō),直到今天,人們仍然沒(méi)有找到這樣一個(gè)精確的 f, 也沒(méi)能發(fā)明某種方法完全實(shí)現 f 的功能,但迄今為止所有在數學(xué)、計算機及機器學(xué)習領(lǐng)域里的成果,都已經(jīng)在蛋白質(zhì)結構預測中有所嘗試,包括簡(jiǎn)單的非線(xiàn)性函數,主成分分析 (Principal component analysis, PCA),模擬退火算法 (Simulated annealing),遺傳/進(jìn)化算法 (Genetic/evolutionary algorithm),神經(jīng)網(wǎng)絡(luò ) (Artificial neural networks, ANNs),隨機概率論模型如隱 Markov 模型 (Hidden Markov models, HMMs),Bayesian 推斷網(wǎng)絡(luò ) (Bayesian inference networks) 等。其他非學(xué)習手段,包括來(lái)自分子力學(xué)和動(dòng)力學(xué)的蛋白質(zhì)折疊模擬,以及對于構象的立體幾何排列研究等,也被用來(lái)參與預測蛋白質(zhì)結構的研究。在如今的研究中,這些方法都是混合使用的,雖然如上所言,人們并沒(méi)有得出一個(gè)一攬子解決方案,但是在不斷嘗試各種方法的過(guò)程中,對蛋白質(zhì)從線(xiàn)性多肽到完整功能構象的折疊過(guò)程,已經(jīng)有了越來(lái)越深的認識。值得指出的是,來(lái)自于序列領(lǐng)域的知識,如序列中的特征片段 (Motif) 識別,二級結構元件預測,以及更大的結構域同源性的發(fā)現,是進(jìn)行結構研究的重要組成部分,也正是藉于此,傳統生物信息學(xué)和傳統計算生物學(xué)在 90 年代找到了結合點(diǎn),形成了不可割裂的一門(mén)學(xué)科,開(kāi)始向理論生物學(xué)發(fā)展。
2000 年,生物信息界最廣為人知的進(jìn)展即為人類(lèi)基因組測序完成,23 條染色體共 3Gb 堿基對的序列。這是一項規模宏大的基礎工程,給今后的所有領(lǐng)域的生物研究產(chǎn)生了深遠影響,但卻被當時(shí)的非專(zhuān)業(yè)決策者和普通大眾過(guò)高得估計了其“市場(chǎng)價(jià)值”。因此,當所謂的“生物科技泡沫”與“互聯(lián)網(wǎng)泡沫”都隨著(zhù) NASDAQ 重挫而消失殆盡時(shí),人們才開(kāi)始重新嚴肅、謹慎的審視基因組,序列和生物信息學(xué)。人類(lèi)基因組計劃在生物研究上的重要貢獻,除了 3Gb 的數據本身之外,更重要的是建立了一種以序列為基礎的研究方向和方法。從此之后,幾乎每一個(gè)生物學(xué)者都開(kāi)始習慣在基因庫中尋找序列上的同源信息以獲得有關(guān)自己研究對象的更多信息,或者干脆直接從序列開(kāi)始,做蛋白結構和功能分析。隨著(zhù)人們測完了這個(gè)生物界相對較大的基因組,測序技術(shù)本身也得到了非??斓陌l(fā)展,錢(qián)海戰術(shù)和人海戰術(shù)并用,在接下來(lái)的幾年內使 GenBank 的數據水漲船高,至 05 年 8 月達到了 100Gb,實(shí)在不能不說(shuō)是一次卓有成效的“大躍進(jìn)”。核苷酸序列數據達到這個(gè)水平,也就從側面表明了,一個(gè)基因在基因庫中的豐度,已經(jīng)能在數據庫中初步的表達出來(lái)。搜索一些熱點(diǎn)基因,可以在庫中得到上百個(gè)同源結果,這為比較研究——也就是最簡(jiǎn)單的“找規律破譯密碼”邏輯——提供了足夠多相似而不相同的研究樣本。
當然,測序得出的基于 EST 片段的基因組序列,其直接生物學(xué)價(jià)值是很小的,更重要的工作是基因注釋 (Gene annotation),其內容就是將基因在大量的非基因序列中標記出來(lái),并且正確分辨讀碼框 (Reading frame),內含子 (intron) 與外顯子 (exon)。這又是一個(gè)復雜費時(shí)的工作,所幸仍然有政府背景的錢(qián)海支持,人類(lèi)基因組的注釋已經(jīng)基本完畢,完全手工精確注釋 (VEGA 項目, EBI, UK & NCBI, US) 也已經(jīng)在一些重要染色體(如 Chr 6, 重要的免疫球蛋白家族 HLA, IG, 原癌基因 p53 等都在此)上完成。而對于其他還未分到一杯羹的已測序物種基因組,人們用一些效果相當不錯的軟件包去做基因發(fā)現,以及剪接位點(diǎn)預測等自動(dòng)化工作 (HMMER @ Ensembl, EBI, UK),也取得了十分有效的成果。值得一提的是,這些軟件包都是生物信息領(lǐng)域的重要成就;人們對算法性能提高的渴望,以及對學(xué)習算法精確率的狂熱,永遠沒(méi)有止盡。遍覽最近五年的生物信息期刊 (Bioinformatics, Oxford Journals; BMC Bioinformatics, BioMedCentral),關(guān)于比對性能,學(xué)習模型,性能評測方法,訓練集測試集選擇等等話(huà)題的討論實(shí)在是數不勝數,使得這兩本雜志有時(shí)候看起來(lái)更像某種數學(xué)期刊;不過(guò),嚴肅的說(shuō),這也從側面體現了,數學(xué)理論已經(jīng)真正融入生物學(xué)研究中,并逐漸催化生物學(xué)從實(shí)驗科學(xué)變成正規,系統的自然科學(xué)。在自然科學(xué)里,化學(xué)和物理學(xué)已經(jīng)早先一個(gè)世紀完成了這種轉變,在數學(xué)上得到統一;而生物學(xué)中的數學(xué),除了種群生態(tài)學(xué)中的一些簡(jiǎn)單的模型,遺傳學(xué)中用于計算基因頻率的簡(jiǎn)單概率論,以及用于統計試驗結果的檢驗工具 (誤差,t-檢驗等等)之外,一直是個(gè)空白,或者說(shuō)沒(méi)有深入到生物的本質(zhì)。而現在,基于對序列隨機模型的研究,我們可以一步一步接近以隨機過(guò)程為本源的生物學(xué)的數學(xué)核心。畢竟,有了數學(xué),一門(mén)科學(xué)才有了靈魂,才可以稱(chēng)之為真正的科學(xué)。
關(guān)于 2000 年后計算生物學(xué)分支的發(fā)展,包括 Microarray 方面和蛋白質(zhì)結構和相互作用方面的研究,以及系統生物學(xué)的發(fā)生,將在下回分解,謝謝大家收看,這次先講到這里。