(右邊)是整個(gè)人類(lèi)基因組中基因組件間大致可視化網(wǎng)絡(luò )聯(lián)系圖,而(左邊)是一個(gè)較小、按照層級結構組織的子集。圖片:格斯坦等人/自然
大量的新數據以前所未有的細節繪制出人類(lèi)基因圖。有些科學(xué)家把這個(gè)里程牘式成就與1999年的基因測序的成就進(jìn)行相提并論。
人類(lèi)第一次對成千上萬(wàn)的新基因片段進(jìn)行編制目錄,而且都包含在這些數據中。九月四日發(fā)表在《自然》和《生物雜志》的三十頁(yè)論文對為些數據進(jìn)行了描述。論文也初步描述了如何將這些組件結合在一起。
當然,如果以史為鑒的話(huà),預期應該降低。對基因組了解越多,最終證明它越復雜——這是一座似乎每向上走一步就更高的山。不過(guò),該視圖值得贊賞。
“最初遺傳學(xué)只關(guān)注1%的基因?!币敶髮W(xué)生物信息學(xué)家馬克·格斯坦說(shuō)道。他所指的是遺傳學(xué)家早期關(guān)注為蛋白質(zhì)編碼的基因。這僅僅代表基因組的無(wú)數組件中一小部分?!覀儭陉P(guān)注那99%的基因?!?
格斯坦是數以百計參與編碼或編制DNA組件百科全書(shū)的研究人員之一。這是一個(gè)2003年推出的大規模合作研究,其目的就是給人類(lèi)所有基因片段進(jìn)行分類(lèi)。
與給建議的百科全書(shū)編碼相比,人類(lèi)基因組計劃的1999年大致序列草圖,甚至其2003年版本,都是我們最明顯特征的記錄式草圖。
無(wú)法形成給蛋白質(zhì)編碼的分子大部分被忽視了,部分原因不僅是它們被認為無(wú)關(guān)緊要,而且因為研究它們需要新的手段和新技術(shù)。正像某人知道箱子里裝滿(mǎn)五金工具,但不清楚里面是否有釘子、螺絲或其它東西一樣,科學(xué)家懂得基因有很多其它分子,但不知道它們是什么分子。
自1999年以來(lái),雖然科學(xué)家描繪了很多基因組的特征,但大多數基因的特征還沒(méi)有描述?!叭祟?lèi)基因組計劃對生命藍圖進(jìn)行了編碼,但是差不多三十億堿基的絕大部分的功能仍然是未知數,”在《自然》共同介紹新研究的編碼負責人這樣寫(xiě)的。
未知基本信息那么多,這也許有助于解釋在進(jìn)入基因時(shí)代十多年,為什么在很多情況下取得的進(jìn)步如些令人沮喪的緩慢,遺傳學(xué)只零碎地探究一些復雜疾病和人類(lèi)發(fā)展,不過(guò)現在至少的更多的基男因片段。
在編碼數據中有成千上萬(wàn)稱(chēng)為假基因、化石基因和死去的基因的新確認結構。這些基因看起來(lái)像編碼蛋白質(zhì)基因,但起其他功能作用。有一些新的RNA(基因組的攜帶分子)和一些無(wú)法攜帶信的RNA。還有一些充當攜帶信息的RNA的假基因。
有很多轉錄因子、蛋白質(zhì)和重組的基本原則。其中蛋白質(zhì)把這些碎片拼接起來(lái),或每時(shí)每刻編排基因活動(dòng)。也有多層次的所謂的表觀(guān)遺傳信息。這些表觀(guān)遺傳信息描述基因活動(dòng)如何調制以及在不同類(lèi)型的細胞中如何變化。
對每個(gè)類(lèi)別組件來(lái)說(shuō),新的編碼數據可以比已知的基因片段增加好幾倍。編碼研究人員估計,一般功能現在可以歸結于整整80%的基因組。
其他威研究人員可以在自己的工作中使用所有這些新信息作為參照物,進(jìn)行新實(shí)驗或把現成的信息應用到一個(gè)新的環(huán)境中。作為一個(gè)例子,編碼研究人員用新的眼光來(lái)看待DNA變異。在成千上萬(wàn)人基因圖中,我們可以在統計學(xué)上發(fā)現羅恩病的關(guān)系。在這種疾病中,身體的免疾系統攻擊自己的胃腸道。
DNA變種原來(lái)似乎沒(méi)有共同的模式或明顯的功能。但是通過(guò)一種編碼鏡可以看到,它們聚集在部分基因組中。而這些部分基因組影響對自體免疫反應至關(guān)重要的基因活性。
一片染色體(基因組結構材料)的三維效果圖,圖片:Maxim Imakaev, Leonid Mirny 和Job Dekker
這些部分基因組正常情況下如何相互作用,這仍然是個(gè)謎。了解它們也是編碼的一個(gè)目標。了解這些相互作用也許會(huì )比編寫(xiě)這些基因組件清單更大的任務(wù)。
“大多數認為基因組是以線(xiàn)性排列”三十億個(gè)變體排列成一條直線(xiàn),“領(lǐng)導編碼網(wǎng)絡(luò )研究工作的格斯坦說(shuō),"那是傳統的看法,我的不是一維的觀(guān)點(diǎn),而是它們如何相互作用的二維觀(guān)點(diǎn)(折線(xiàn)圖)?!?
另一個(gè)相關(guān)的挑戰是了解基因組年代三維形狀。染色體遠非以直線(xiàn)排列,它折疊在一個(gè)無(wú)比復雜的分形圖案中。而這些形狀似乎形成網(wǎng)絡(luò )狀的相互作用。
“每個(gè)基因周?chē)嬖跓o(wú)窮無(wú)盡的調控組件。它們是無(wú)所不在。只有25,000種基因,但可能有一百多萬(wàn)種調控組件,”在馬塞諸塞州大學(xué)醫學(xué)院從事基因組結構描述編碼的分子生物物理學(xué)家Job Dekker說(shuō)。
他繼續說(shuō):“這不只是一種接觸一種調控組件的基因,它能能接觸而且與所有它們組件發(fā)生相互作用。它必定涉及到一個(gè)極其復雜的三維結構。在這基礎上,色體形狀變成了令人難以置信的動(dòng)態(tài)、復雜和細胞特定類(lèi)型?!?
Dekker仿效格斯坦早期所說(shuō)的話(huà),但是以相反的方式說(shuō)的。他說(shuō),迄今為止,編碼只描述1%基因組的三維結構,但還有99%基因組有待研究。
美國人類(lèi)基因學(xué)會(huì )前主席、約翰斯·霍普金斯大學(xué)遺傳學(xué)家Aravinda Chakravarti警告,不要基期望從編碼數據中太快、太多獲得成果。論文開(kāi)始展示我們的基因組的工作,但這些是初始步驟,是必要但并不完整,”他在一封電子郵這樣寫(xiě)道。
"我深信這些基因圖會(huì )有助于我們更好了解基因調控,但這會(huì )需要更多的工作?!癈hakravarti這樣寫(xiě)?!耙獜幕蚺判虻淖x數孜變轉向了解它們如何引發(fā)疾病,這也需要更多的工作?!彼f(shuō)。
未知的東西那么多,這是令人生畏的。并且提出了基因組的復雜性是否可能證明是無(wú)法逾越的問(wèn)題?!斑@的確是一個(gè)挑戰,”Dekker說(shuō):“不過(guò)這是可以認識的?!?
聯(lián)系客服