欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
用數學(xué)詮釋生命——當今生物信息與計算生物學(xué)回顧(一)
用數學(xué)詮釋生命——當今生物信息與計算生物學(xué)回顧(一)
 


李小凡
Xiaofan Li
Cambridge Computational Biology Institute (CCBI)
Department of Applied Mathematics and Theoretical Physics (DAMTP), University of Cambridge, CB3 0WA, United Kingdom

本文接受任何形式的轉載和轉發(fā),但請保留文章標題和內容的完整性以及作者署名信息

從數學(xué)第一次嘗試介入解決分子生物學(xué)問(wèn)題開(kāi)始算起,至今已經(jīng)有大概四分之一個(gè)世紀了。所以,所謂 “生物信息學(xué)” 和其近親“計算生物學(xué)”,并不是如人們想象的那樣新興。在上世紀 70 年代,已經(jīng)開(kāi)始出現針對核苷酸序列比對算法的研究,其基礎就直接來(lái)自于計算機算法研究的發(fā)展-動(dòng)態(tài)規劃 (Dynamic programming),即在兩個(gè)長(cháng)度為 N 和 M 的序列正交形成的 N x M 的矩陣中,對每一個(gè)元素 (i,j) 根據某種機制打分,并在打好分的 N x M 中尋找一條自左上至右下得分之和為最小的路徑,即最短路徑,又即最佳比對方案。值得一提的是,動(dòng)態(tài)規劃并不只適用于序列對比,用遞歸算法實(shí)現動(dòng)態(tài)規劃的思想,最初就是用來(lái)解決諸如 Travelling Salesman, 背包問(wèn)題及其派生出的優(yōu)化問(wèn)題的。

自 80 年代開(kāi)始,序列信息開(kāi)始成倍的增長(cháng),因為測序技術(shù)在這個(gè)時(shí)間得到了相當大的發(fā)展。另一方面,計算機的計算和存儲能力在這 10 年內迅速提高,給各種數學(xué)理論在分子生物學(xué)中的應用奠定了硬件基礎。畢竟,生物的復雜度要遠遠超過(guò)自然,用筆來(lái)計算生物學(xué)中的規律,是絕無(wú)可能的(這也是 19 世紀末 20 世紀初理論物理和如今“理論生物學(xué)”的顯著(zhù)區別之一)。生物系統是非線(xiàn)性的,隨機的,這就決定了數學(xué)在生物學(xué)中的介入,以數值問(wèn)題和隨機過(guò)程為主;而在其他學(xué)科,如微觀(guān)經(jīng)濟和理論物理中的數學(xué),往往是分析問(wèn)題。對于依賴(lài)數值解,時(shí)間復雜度又相當高的問(wèn)題,使用計算機是唯一的解決方案。真正意義上的生物信息學(xué)和計算生物學(xué),就基本上在此時(shí)誕生了。另一方面,分子生物學(xué)上取得的進(jìn)展,尤其是用于測定蛋白質(zhì) 3D 結構的 X 射線(xiàn)晶體分析 (X-ray crystallography) 和核磁共振 (Nuclear Magnetic Resonance, NMR) 技術(shù)的進(jìn)步,使得生物學(xué)者對蛋白質(zhì)結構和其序列之間的關(guān)系有了更加清晰的印象。而蛋白質(zhì)結構域又往往與其生理功能相適應,這就給分子生物學(xué)中的幾大類(lèi)研究建立了聯(lián)系,即功能研究依賴(lài)于結構研究,結構研究又依賴(lài)于針對蛋白質(zhì)序列的分析。再加上 Watson-Crick 中心法則,使蛋白質(zhì)序列與基因序列相關(guān),就形成了研究生物學(xué)“主流”問(wèn)題的一整套體系。雖然依據這種思路的實(shí)驗方法在 80 年代就已經(jīng)相對完善,但直到以隨機過(guò)程和概率論為先鋒的數學(xué)開(kāi)始介入其中之后,這個(gè)體系的內在聯(lián)系與規律才開(kāi)始被真正揭示出來(lái)。所謂“生物信息學(xué)”和“計算生物學(xué)”,實(shí)際上應當歸納為“理論生物學(xué)”。不過(guò),理論生物學(xué)一詞目前還較少提及,因為直至今日,在生物學(xué)研究里,仍然缺少?lài)烂?、規范、完整的理論體系。但是,從彼時(shí)起,我們至少已經(jīng)開(kāi)始在正確的道路上前行。

時(shí)至 90 年代,個(gè)人計算機性能的再一次爆棚,使得處理生物學(xué)中復雜序列問(wèn)題的金錢(qián)和時(shí)間成本又一次大大降低,許多原先由于過(guò)于復雜而不可實(shí)現的算法,在快速 CPU 和大容量?jì)却娴闹С窒碌靡暂p松運行。最顯著(zhù)的例子就是 BLAST 算法與序列數據庫在過(guò)去 15 年中的“協(xié)同進(jìn)化”。BLAST (Myers & Miller, 1990) 是動(dòng)態(tài)規劃解決序列問(wèn)題最著(zhù)名的一個(gè)實(shí)現版本,派生出無(wú)數應用,如位于 NCBI 基于 GenBank/UniProt 的各種 BLAST 搜索引擎,又如各種獨立的 BLAST 小程序等。在生物信息學(xué)剛開(kāi)始為普通大眾所知的年代里,BLAST 與 NCBI 幾乎成了該學(xué)科的代名詞,以至于很多人(包括相當多的生物學(xué)家)認為,生物信息學(xué)就是測序,BLAST, 測序,BLAST, 測序,BLAST! 誠然,90 年代對這個(gè)領(lǐng)域來(lái)說(shuō),是數據爆增的時(shí)代,因此針對數據存儲和直接搜索的應用顯得尤為重要,如各種各樣的數據搜索工具和序列比對程序。另一個(gè)所謂生物信息學(xué)程序包,EMBOSS,在這個(gè)時(shí)代也逐漸被豐富和完善。EMBOSS 由很多小程序組成,每個(gè)程序能根據給定的一個(gè)序列計算這個(gè)序列的某一個(gè)屬性,如計算 GC 含量,尋找 CpG 島,預測內含子剪接位點(diǎn),等等。這些應用也確實(shí)屬于生物信息學(xué)范疇,但是在如今的觀(guān)點(diǎn)看來(lái),只能說(shuō)是相當基礎的應用了。實(shí)際上,這些小程序只是手工處理序列信息的自動(dòng)化版本,他們除了作為“計算器”給分子生物學(xué)家提供了更快獲得序列某種屬性的途徑之外,并沒(méi)有產(chǎn)生更多的價(jià)值,也沒(méi)能將生物信息學(xué)從“工具”轉化為獨立的研究方向。

生物信息學(xué)真正作為一門(mén)獨立而有重要作用的學(xué)科,始于其計算生物學(xué)分支在 90 年代的發(fā)展。不同于廣為人知的 DNA 和基因,這個(gè)分支是從研究蛋白質(zhì) 3D 結構開(kāi)始發(fā)展的,即從結構生物學(xué)入手。在相當長(cháng)的一段時(shí)間內,甚至直到今天,許多生物學(xué)者理解的結構生物學(xué),就是指用 X 射線(xiàn)晶體分析和核磁共振 (NMR) 測定蛋白質(zhì)結構,這也是多數結構生物學(xué)實(shí)驗室如今仍然在做的事情。用于儲存這些測定好的結構的數據庫,PDB (http://www.pdb.org), 至今已有數萬(wàn)條記錄。對于某些熱點(diǎn)蛋白質(zhì),PDB 里往往會(huì )有不同實(shí)驗室在不同時(shí)間用不同方法測定結構而提交的不同記錄,比較這些記錄的共同點(diǎn)與差異,往往會(huì )有對于這個(gè)結構本身相當重要的發(fā)現。另一方面,雖然蛋白質(zhì)結構測定技術(shù)與 70 年代已不可同日而語(yǔ),但結構的測定速度永遠趕不上測序的速度,也就造成了 PDB 的記錄在 GenBank 和 UniProt 中的對應序列記錄占序列總數的百分比反而越來(lái)越少。這就使得人們開(kāi)始考慮,是否能通過(guò)已知的結構和序列,通過(guò)歸納某種方法,能夠根據測序結果推知未知蛋白的結構?我們可以假設這個(gè)方法為 f, 已知序列為 x_0, 對應的已知結構為 y_0. 我們希望能從 y_0 = f(x_0) 中歸納出 f, 從而求出對任意 x 的 f(x),即對應任意既有序列的結構。從數學(xué)的角度看,這是一個(gè)非線(xiàn)性分類(lèi)問(wèn)題;用計算機科學(xué)的語(yǔ)言來(lái)說(shuō),這是一個(gè)模式識別問(wèn)題;用人工智能和機器學(xué)習領(lǐng)域的觀(guān)點(diǎn),這是一個(gè)分類(lèi)器的學(xué)習問(wèn)題??陀^(guān)的說(shuō),直到今天,人們仍然沒(méi)有找到這樣一個(gè)精確的 f, 也沒(méi)能發(fā)明某種方法完全實(shí)現 f 的功能,但迄今為止所有在數學(xué)、計算機及機器學(xué)習領(lǐng)域里的成果,都已經(jīng)在蛋白質(zhì)結構預測中有所嘗試,包括簡(jiǎn)單的非線(xiàn)性函數,主成分分析 (Principal component analysis, PCA),模擬退火算法 (Simulated annealing),遺傳/進(jìn)化算法 (Genetic/evolutionary algorithm),神經(jīng)網(wǎng)絡(luò ) (Artificial neural networks, ANNs),隨機概率論模型如隱 Markov 模型 (Hidden Markov models, HMMs),Bayesian 推斷網(wǎng)絡(luò ) (Bayesian inference networks) 等。其他非學(xué)習手段,包括來(lái)自分子力學(xué)和動(dòng)力學(xué)的蛋白質(zhì)折疊模擬,以及對于構象的立體幾何排列研究等,也被用來(lái)參與預測蛋白質(zhì)結構的研究。在如今的研究中,這些方法都是混合使用的,雖然如上所言,人們并沒(méi)有得出一個(gè)一攬子解決方案,但是在不斷嘗試各種方法的過(guò)程中,對蛋白質(zhì)從線(xiàn)性多肽到完整功能構象的折疊過(guò)程,已經(jīng)有了越來(lái)越深的認識。值得指出的是,來(lái)自于序列領(lǐng)域的知識,如序列中的特征片段 (Motif) 識別,二級結構元件預測,以及更大的結構域同源性的發(fā)現,是進(jìn)行結構研究的重要組成部分,也正是藉于此,傳統生物信息學(xué)和傳統計算生物學(xué)在 90 年代找到了結合點(diǎn),形成了不可割裂的一門(mén)學(xué)科,開(kāi)始向理論生物學(xué)發(fā)展。

2000 年,生物信息界最廣為人知的進(jìn)展即為人類(lèi)基因組測序完成,23 條染色體共 3Gb 堿基對的序列。這是一項規模宏大的基礎工程,給今后的所有領(lǐng)域的生物研究產(chǎn)生了深遠影響,但卻被當時(shí)的非專(zhuān)業(yè)決策者和普通大眾過(guò)高得估計了其“市場(chǎng)價(jià)值”。因此,當所謂的“生物科技泡沫”與“互聯(lián)網(wǎng)泡沫”都隨著(zhù) NASDAQ 重挫而消失殆盡時(shí),人們才開(kāi)始重新嚴肅、謹慎的審視基因組,序列和生物信息學(xué)。人類(lèi)基因組計劃在生物研究上的重要貢獻,除了 3Gb 的數據本身之外,更重要的是建立了一種以序列為基礎的研究方向和方法。從此之后,幾乎每一個(gè)生物學(xué)者都開(kāi)始習慣在基因庫中尋找序列上的同源信息以獲得有關(guān)自己研究對象的更多信息,或者干脆直接從序列開(kāi)始,做蛋白結構和功能分析。隨著(zhù)人們測完了這個(gè)生物界相對較大的基因組,測序技術(shù)本身也得到了非??斓陌l(fā)展,錢(qián)海戰術(shù)和人海戰術(shù)并用,在接下來(lái)的幾年內使 GenBank 的數據水漲船高,至 05 年 8 月達到了 100Gb,實(shí)在不能不說(shuō)是一次卓有成效的“大躍進(jìn)”。核苷酸序列數據達到這個(gè)水平,也就從側面表明了,一個(gè)基因在基因庫中的豐度,已經(jīng)能在數據庫中初步的表達出來(lái)。搜索一些熱點(diǎn)基因,可以在庫中得到上百個(gè)同源結果,這為比較研究——也就是最簡(jiǎn)單的“找規律破譯密碼”邏輯——提供了足夠多相似而不相同的研究樣本。

當然,測序得出的基于 EST 片段的基因組序列,其直接生物學(xué)價(jià)值是很小的,更重要的工作是基因注釋 (Gene annotation),其內容就是將基因在大量的非基因序列中標記出來(lái),并且正確分辨讀碼框 (Reading frame),內含子 (intron) 與外顯子 (exon)。這又是一個(gè)復雜費時(shí)的工作,所幸仍然有政府背景的錢(qián)海支持,人類(lèi)基因組的注釋已經(jīng)基本完畢,完全手工精確注釋 (VEGA 項目, EBI, UK & NCBI, US) 也已經(jīng)在一些重要染色體(如 Chr 6, 重要的免疫球蛋白家族 HLA, IG, 原癌基因 p53 等都在此)上完成。而對于其他還未分到一杯羹的已測序物種基因組,人們用一些效果相當不錯的軟件包去做基因發(fā)現,以及剪接位點(diǎn)預測等自動(dòng)化工作 (HMMER @ Ensembl, EBI, UK),也取得了十分有效的成果。值得一提的是,這些軟件包都是生物信息領(lǐng)域的重要成就;人們對算法性能提高的渴望,以及對學(xué)習算法精確率的狂熱,永遠沒(méi)有止盡。遍覽最近五年的生物信息期刊 (Bioinformatics, Oxford Journals; BMC Bioinformatics, BioMedCentral),關(guān)于比對性能,學(xué)習模型,性能評測方法,訓練集測試集選擇等等話(huà)題的討論實(shí)在是數不勝數,使得這兩本雜志有時(shí)候看起來(lái)更像某種數學(xué)期刊;不過(guò),嚴肅的說(shuō),這也從側面體現了,數學(xué)理論已經(jīng)真正融入生物學(xué)研究中,并逐漸催化生物學(xué)從實(shí)驗科學(xué)變成正規,系統的自然科學(xué)。在自然科學(xué)里,化學(xué)和物理學(xué)已經(jīng)早先一個(gè)世紀完成了這種轉變,在數學(xué)上得到統一;而生物學(xué)中的數學(xué),除了種群生態(tài)學(xué)中的一些簡(jiǎn)單的模型,遺傳學(xué)中用于計算基因頻率的簡(jiǎn)單概率論,以及用于統計試驗結果的檢驗工具 (誤差,t-檢驗等等)之外,一直是個(gè)空白,或者說(shuō)沒(méi)有深入到生物的本質(zhì)。而現在,基于對序列隨機模型的研究,我們可以一步一步接近以隨機過(guò)程為本源的生物學(xué)的數學(xué)核心。畢竟,有了數學(xué),一門(mén)科學(xué)才有了靈魂,才可以稱(chēng)之為真正的科學(xué)。

關(guān)于 2000 年后計算生物學(xué)分支的發(fā)展,包括 Microarray 方面和蛋白質(zhì)結構和相互作用方面的研究,以及系統生物學(xué)的發(fā)生,將在下回分解,謝謝大家收看,這次先講到這里。
本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
生物信息學(xué)的現狀與展望(The Current Status and The Prospect of Bioinformatics)
生物實(shí)驗數據和計算技術(shù)
生物信息學(xué)的發(fā)展現狀和展望
生物信息學(xué)的打怪升級—初段小白必備
兩大頂級AI算法一起開(kāi)源!Nature、Science齊發(fā),雙廚狂喜
生物信息學(xué)的主要研究開(kāi)發(fā)內容
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久