
美國華盛頓大學(xué)的研究人員報告說(shuō)他們已經(jīng)從“宏基因組學(xué)”的項目(來(lái)自土壤和海洋大量微生物的DNA片段)找到了如何預測未知蛋白質(zhì)結構的方法。相關(guān)結果發(fā)表在1月19日的Science上。
這項工作預測了614個(gè)蛋白的結構,在沒(méi)有實(shí)驗結構存在的5211個(gè)蛋白家族中占12%。新的蛋白結構有望對細胞內部工作的進(jìn)一步了解,并為研發(fā)新的藥物鋪平道路。而且該項技術(shù)會(huì )在宏基因組測序進(jìn)一步發(fā)展的狀況下繼續成長(cháng)得更強有力。
分析蛋白家族的結構是一個(gè)巨大的工程
僅僅根據基因序列是不可能知道蛋白質(zhì)如何折疊的??赡艿慕Y構是天文數字,盡管計算生物學(xué)家在縮小可能性方面取得了進(jìn)展。幾十年的實(shí)驗和計算工作表明,氨基酸更傾向于彼此依偎,并保持在一個(gè)臂的長(cháng)度。這有助于研究人員計算最穩定的折疊模式,但主要是相對較小的蛋白質(zhì)。但對于較大的蛋白,變量的數量使得計算非常棘手。
基因序列中的共進(jìn)化對會(huì )有助于蛋白結構分析
在上世紀90年代,哈佛大學(xué)的計算生物學(xué)家Chris Sander,表明基因序列數據可以有所幫助。Sander推斷當蛋白質(zhì)折疊時(shí),在二維上相當遙遠的氨基酸對可能在三維折疊的蛋白質(zhì)上是相鄰的,這提供了讓蛋白質(zhì)來(lái)保持其形狀的關(guān)鍵相互作用。如果基因突變導致這些氨基酸中的一種改變,它可以破壞這種相互作用,使蛋白質(zhì)失去作用,并可能殺死有機體。但在極少數情況下,基因突變可能同時(shí)改變兩種關(guān)鍵氨基酸,保持它們之間的相互作用,使蛋白質(zhì)能夠繼續發(fā)揮作用。進(jìn)化將有利于這種串聯(lián)的突變,導致氨基酸的伙伴共同進(jìn)化。

共進(jìn)化對的示意圖
Sander建議要找到這些共同進(jìn)化對,要查看的不只是一個(gè)單一的生物蛋白基因序列,而是很多。生物體從細菌到人類(lèi)共享許多密切相關(guān)的蛋白質(zhì)。通過(guò)比較這些共享蛋白的基因序列,研究人員可以定位這些共同進(jìn)化的DNA片段。任何這樣氨基酸對的代碼,很可能作為一個(gè)三維結構的近鄰,就是需要改善計算機折疊算法的約束類(lèi)型。
Rosetta結構預測運用宏基因組數據
這個(gè)方法叫做Rosetta結構預測,通過(guò)進(jìn)化信息來(lái)預測殘基之間的接觸。這種方法能對屬于大型家族的蛋白建模,比蛋白家族數多三倍的充足宏基因組數據能夠準確地建模。幾年前由Sander 和 David Baker領(lǐng)導的華盛頓大學(xué)的生物化學(xué)家的工作,表明了這個(gè)想法能夠起作用。到目前為止,照這個(gè)方法確定了幾十種蛋白質(zhì)的結構,Baker解釋說(shuō):“限制的事情是得到更多的序列數據?!?/p>
Baker在這個(gè)方法上加大了力度,根據發(fā)表在Science上的報道他們已經(jīng)采用宏基因組測序技術(shù)結合使用的技術(shù),通過(guò)篩選的序列數據,他們能夠追蹤足夠的共進(jìn)化的氨基酸來(lái)確定614個(gè)蛋白的結構,每一個(gè)代表未發(fā)現結構的一個(gè)完整家族的蛋白。206個(gè)是膜蛋白,137個(gè)折疊的蛋白沒(méi)有在蛋白數據庫中有代表。使用這些結構的模板,計算生物學(xué)家應該能夠模擬成千上萬(wàn)的相關(guān)家族的結構。這種方法為大型蛋白家族提供了代表性模型,開(kāi)創(chuàng )了以小成本獲得蛋白結構的想法。
參考資料
Hundreds of elusive protein structure spinned down from genome data
Protein structure determination using metagenome sequence data
Seeking structure with metagenome sequences聯(lián)系客服