二十年前,當 人類(lèi)基因組計劃 和生物技術(shù)公司Celera Genomics宣布對人類(lèi)基因組測序時(shí),人類(lèi)基因序列還并不真正完整。有大約15%的內容缺失:技術(shù)上的限制使研究人員無(wú)法弄清某些DNA片段是如何組合在一起的,特別是有許多重復字母(堿基對)的地方。隨著(zhù)時(shí)間的推移,科學(xué)家們解決了部分難題,但當時(shí)的人類(lèi)基因組(遺傳學(xué)家自2013年以來(lái)一直將其作為參考)仍然缺少8%的完整序列。
現在,端粒到端粒(T2T)聯(lián)盟的研究人員填補了這些空白,該聯(lián)盟是由大約30個(gè)機構組成的國際合作組織。在5月27日題為 "人類(lèi)基因組的完整序列" 的預印本論文中,加州大學(xué)圣克魯茲分校的基因組學(xué)研究員Karen Miga和她的同事報告說(shuō),他們已經(jīng)對剩余部分進(jìn)行了測序,在這個(gè)過(guò)程中發(fā)現了大約115個(gè)編碼蛋白質(zhì)的新基因,而本次測序總數為19969。
馬里蘭州貝塞斯達的美國國家生物技術(shù)信息中心的生物信息學(xué)家Kim Pruitt稱(chēng)這個(gè)結果是一個(gè) "重要的里程碑"。
新的測序技術(shù)
新測序的基因(標號為)T2T-CHM13——在2013年版本的人類(lèi)基因組序列上添加了近2億個(gè)堿基對。
這一次,研究人員沒(méi)有從活人身上提取DNA,而是使用了從所謂的全性葡萄胎中提取的細胞系,這是當精子與沒(méi)有細胞核的卵子結合時(shí)形成的組織類(lèi)型。由此產(chǎn)生的細胞只包含來(lái)自父親的染色體,因此研究人員不必區分來(lái)自不同人的兩套染色體。
Miga說(shuō),如果沒(méi)有加利福尼亞州門(mén)洛帕克的太平洋生物科學(xué)公司的新測序技術(shù),這一壯舉幾乎是不可能的,該公司使用激光掃描從細胞中分離出來(lái)的長(cháng)段DNA——每個(gè)都有多達2萬(wàn)個(gè)堿基對。傳統的測序方法每次只讀取幾百個(gè)堿基對。那時(shí)研究人員要將片段像拼圖一樣重新組合起來(lái)。較大的碎片更容易拼湊,因為它們更有可能包含重疊的序列。
然而,T2T-CHM13并不是人類(lèi)基因組學(xué)的終點(diǎn)。T2T團隊在幾個(gè)區域上遭遇了困難,并估計大約0.3%的基因組可能包含錯誤;但沒(méi)有未被測序的片段。事實(shí)證明,在那幾處區域進(jìn)行質(zhì)量控制檢查是很困難的。
Miga預計,遺傳學(xué)科學(xué)家將很快確認新測序區域是否與人類(lèi)疾病相關(guān)。
她希望未來(lái)的人類(lèi)基因組序列將涵蓋所有內容,而不僅僅是容易閱讀的部分?,F在對照基因組已經(jīng)完成,一些技術(shù)上的障礙也已經(jīng)解決,這應該更容易。她說(shuō):"我們需要在基因組學(xué)中達到一個(gè)新的標準,不是特殊的,而是常規的?!?/p>
聯(lián)系客服