
來(lái)源 | 科學(xué)大院 (ID:kexuedayuan)
提到病毒,大多數(shù)人首先會(huì)想到疾病和感染。但你可能不知道,我們每個(gè)人的基因組中都攜帶著大量遠(yuǎn)古病毒的“化石”——它們占據(jù)了人類基因組的8%。這些被稱為內(nèi)源性逆轉(zhuǎn)錄病毒的序列,是數(shù)百萬(wàn)年前感染我們祖先的病毒留下的印記。
長(zhǎng)期以來(lái),科學(xué)家們認(rèn)為這些序列只是基因組中的“垃圾”,沒(méi)有任何功能。然而,最新的研究改變了這一看法。中國(guó)科學(xué)院上海藥物研究所陳勛團(tuán)隊(duì)聯(lián)合多個(gè)國(guó)際團(tuán)隊(duì)的一項(xiàng)突破性研究發(fā)現(xiàn),這些遠(yuǎn)古病毒序列不僅不是“垃圾”,反而可能是調(diào)控人類基因表達(dá)的重要“開(kāi)關(guān)”。
![]()
逆轉(zhuǎn)錄病毒的基本結(jié)構(gòu)(圖片來(lái)源:維基百科)
被誤解的“垃圾”DNA——科學(xué)認(rèn)知的轉(zhuǎn)折
要理解本次發(fā)現(xiàn)的意義,我們需要先回到2000年,人類基因組計(jì)劃初步完成,科學(xué)家們第一次看到了人類遺傳密碼的全貌。令人驚訝的是,編碼蛋白質(zhì)的基因只占基因組的不到2%,而剩下的98%被認(rèn)為是沒(méi)有功能的“垃圾DNA”。
![]()
人類染色體的示意核型圖,展示了基于G顯帶技術(shù)的人類基因組概覽(圖片來(lái)源:維基百科)
在經(jīng)典的G顯帶核型圖(即通過(guò)吉姆薩染色技術(shù)呈現(xiàn)的染色體條帶圖譜)中,我們可以直觀地看到人類基因組的組成奧秘。圖中那些較暗的區(qū)域(DNA中鳥(niǎo)嘌呤和胞嘧啶堿基所占比例較少)和每條染色體中央狹窄的著絲粒(染色體中央的狹窄區(qū)域,在細(xì)胞分裂時(shí)起關(guān)鍵作用)區(qū)域,正是非編碼DNA的主要聚集地。其中,內(nèi)源性逆轉(zhuǎn)錄病毒序列就是這些“垃圾”的重要組成部分。
與普通病毒不同,逆轉(zhuǎn)錄病毒有一個(gè)獨(dú)特的生命周期。它們攜帶的遺傳物質(zhì)是RNA,但在感染細(xì)胞后,會(huì)利用一種叫“逆轉(zhuǎn)錄酶”的特殊蛋白質(zhì),將自己的RNA“反向轉(zhuǎn)錄”成DNA。這就像是把一份手寫(xiě)的筆記(RNA)用打印機(jī)打印成標(biāo)準(zhǔn)文檔(DNA)。
更關(guān)鍵的是,這些新合成的病毒DNA會(huì)整合到宿主細(xì)胞的染色體中,成為宿主基因組的一部分,這個(gè)過(guò)程就像是把一段外來(lái)的文字永久地粘貼到一本書(shū)中。在眾多逆轉(zhuǎn)錄病毒中,HIV(人類免疫缺陷病毒)就是現(xiàn)代最著名的例子。
![]()
HIV病毒模型(圖片來(lái)源:veer圖庫(kù))
人類基因組中這些病毒序列的來(lái)源可以追溯到幾百萬(wàn)年前。當(dāng)時(shí),一些逆轉(zhuǎn)錄病毒感染了我們的祖先,并將自己的遺傳物質(zhì)整合到了宿主的基因組中。如果這種整合發(fā)生在生殖細(xì)胞中,病毒序列就會(huì)傳遞給后代。經(jīng)過(guò)漫長(zhǎng)的進(jìn)化,這些病毒序列在突變和自然選擇的作用下,大多數(shù)失去了原有的感染能力,成為了基因組中看似無(wú)用的“化石”。
科學(xué)家們根據(jù)序列差異,將這些內(nèi)源性逆轉(zhuǎn)錄病毒分為500多個(gè)亞家族,包括HERV-E、HERV-K、HERV-H等。每個(gè)完整的病毒序列通常包含三個(gè)核心基因(gag、pol、env)和兩端的長(zhǎng)末端重復(fù)序列(LTRs)。但由于長(zhǎng)期的進(jìn)化,大多數(shù)序列已經(jīng)支離破碎,看起來(lái)確實(shí)像是“垃圾”。
發(fā)現(xiàn)隱藏的寶藏——新方法帶來(lái)新認(rèn)識(shí)
然而,科學(xué)的魅力就在于不斷挑戰(zhàn)既有認(rèn)知。近年來(lái),越來(lái)越多的證據(jù)表明,這些所謂的“垃圾”DNA可能具有重要功能。特別是病毒序列兩端的LTR區(qū)域,富含轉(zhuǎn)錄因子結(jié)合位點(diǎn),可能作為基因調(diào)控元件影響鄰近基因的表達(dá)。
但要驗(yàn)證這個(gè)假設(shè)面臨一個(gè)巨大的挑戰(zhàn):由于這些病毒序列高度相似,就像同一本書(shū)的不同版本,傳統(tǒng)的基于序列相似性的注釋方法容易出錯(cuò)——可能把同一家族的序列誤判為不同家族,或把不同家族的序列因局部相似而錯(cuò)誤歸類。
在基因組學(xué)中,所謂“注釋”是指給DNA序列添加功能標(biāo)簽和分類信息的過(guò)程,就像給圖書(shū)館里的書(shū)籍貼標(biāo)簽分類一樣。對(duì)于內(nèi)源性逆轉(zhuǎn)錄病毒序列,注釋就是標(biāo)明每段序列屬于哪個(gè)病毒家族或亞家族(如HERV-K、MER11-A等)。而錯(cuò)誤注釋就像把一本經(jīng)典文學(xué)小說(shuō)放到了科技書(shū)架上,導(dǎo)致研究者在研究某個(gè)病毒家族功能時(shí)找到的是錯(cuò)誤分類的序列,使實(shí)驗(yàn)結(jié)果混亂,無(wú)法得出正確結(jié)論。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一種全新的注釋方法。這種方法不再單純依賴序列相似性,而是結(jié)合了系統(tǒng)發(fā)育分析——通過(guò)追蹤序列的進(jìn)化歷史來(lái)進(jìn)行分類。這就像通過(guò)家譜來(lái)確定親屬關(guān)系,而不是僅憑長(zhǎng)相相似。
研究人員首先聚焦于76個(gè)進(jìn)化上較年輕的內(nèi)源性逆轉(zhuǎn)錄病毒亞家族。令人震驚的是,他們發(fā)現(xiàn)其中26個(gè)亞家族存在近三分之一的注釋錯(cuò)誤。以MER11家族為例,原本被分為A、B、C三個(gè)亞家族,但新方法揭示了大量分類錯(cuò)誤,并識(shí)別出了四個(gè)全新的亞家族:MER11_G1、G2、G3、G4,按照進(jìn)化年齡從老到新排列。
![]()
基于進(jìn)化的轉(zhuǎn)座子序列注釋新方法
(圖片來(lái)源:參考文獻(xiàn)[1])
從猴子到人:追蹤病毒序列的進(jìn)化軌跡
有了準(zhǔn)確的分類,研究人員開(kāi)始探索這些序列的功能。他們采用了一種名為“大規(guī)模平行報(bào)告系統(tǒng)”(lentiMPRA)的尖端技術(shù)。利用該方法,他們就像是同時(shí)進(jìn)行了成千上萬(wàn)個(gè)實(shí)驗(yàn),一次性測(cè)試了7000多條來(lái)自人類、大猩猩和獼猴的MER11序列,看它們是否能夠調(diào)控基因表達(dá)。
實(shí)驗(yàn)在人類干細(xì)胞和早期神經(jīng)細(xì)胞中進(jìn)行,結(jié)果令人振奮。研究發(fā)現(xiàn),最年輕的MER11_G4亞家族表現(xiàn)出強(qiáng)大的基因調(diào)控活性。更有趣的是,這種調(diào)控能力與一組特殊的DNA序列有關(guān)——SOX轉(zhuǎn)錄因子結(jié)合位點(diǎn)。
SOX轉(zhuǎn)錄因子是一類重要的基因調(diào)控蛋白,在胚胎發(fā)育、干細(xì)胞維持等關(guān)鍵生物學(xué)過(guò)程中發(fā)揮作用。研究發(fā)現(xiàn),在靈長(zhǎng)類進(jìn)化過(guò)程中,MER11_G4序列通過(guò)單個(gè)堿基的缺失,意外地創(chuàng)造出了新的SOX結(jié)合位點(diǎn)。這個(gè)微小的變化,卻帶來(lái)了巨大的功能影響——顯著增強(qiáng)了這些序列的調(diào)控活性。
更令人驚奇的是,這種進(jìn)化在不同物種中呈現(xiàn)出不同的模式。人類和黑猩猩共有的一些MER11_G4序列獲得了獨(dú)特的突變,使它們?cè)诟杉?xì)胞中具有更強(qiáng)的調(diào)控潛力。這意味著,這些遠(yuǎn)古病毒序列可能參與了人類特有的基因調(diào)控網(wǎng)絡(luò)的形成。
![]()
不同物種的基因組規(guī)模
(圖片來(lái)源:維基百科)
單堿基的蝴蝶效應(yīng):微小變化的巨大影響
研究團(tuán)隊(duì)在單堿基分辨率水平上分析了這些變化。他們發(fā)現(xiàn),僅僅一個(gè)堿基的插入或缺失,就能決定一個(gè)序列是否具有調(diào)控功能。這就像密碼鎖,只要一個(gè)數(shù)字錯(cuò)誤,就無(wú)法打開(kāi)。但在進(jìn)化的長(zhǎng)河中,偶然的“錯(cuò)誤”反而可能創(chuàng)造出新的功能。
以SOX結(jié)合位點(diǎn)為例,原始的MER11序列并不包含這個(gè)位點(diǎn)。但在靈長(zhǎng)類進(jìn)化過(guò)程中,一個(gè)堿基的缺失意外地形成了SOX蛋白的識(shí)別序列。這個(gè)變化發(fā)生在人類和大猩猩的共同祖先中,距今約800萬(wàn)年。隨后,在人類和黑猩猩的演化過(guò)程中,這些序列又積累了更多的變化,進(jìn)一步優(yōu)化了它們的調(diào)控功能。
這種現(xiàn)象展示了進(jìn)化的精妙之處:看似隨機(jī)的突變,在自然選擇的作用下,可能被保留并賦予新的功能。遠(yuǎn)古病毒序列就這樣從“入侵者”變成了“合作者”,成為人類基因組調(diào)控網(wǎng)絡(luò)的一部分。
從基礎(chǔ)研究到醫(yī)學(xué)應(yīng)用:打開(kāi)新的大門(mén)
這項(xiàng)研究的意義遠(yuǎn)不止于滿足科學(xué)好奇心。內(nèi)源性逆轉(zhuǎn)錄病毒序列與多種人類疾病相關(guān),包括癌癥、自身免疫疾病和神經(jīng)退行性疾病。準(zhǔn)確了解這些序列的功能,對(duì)于理解疾病機(jī)制和開(kāi)發(fā)新療法至關(guān)重要。
例如,某些內(nèi)源性逆轉(zhuǎn)錄病毒在腫瘤中異常激活,可能促進(jìn)癌細(xì)胞的生長(zhǎng)和轉(zhuǎn)移。如果我們能夠精確識(shí)別這些序列并理解它們的調(diào)控機(jī)制,就可能開(kāi)發(fā)出新的癌癥治療策略。同樣,在自身免疫疾病中,某些病毒序列的激活可能觸發(fā)免疫反應(yīng),導(dǎo)致機(jī)體攻擊自身組織。而若能精準(zhǔn)干預(yù)這些序列的異常表達(dá),或許能為此類疾病的治療提供另一種思路。
此外,這項(xiàng)研究還為理解人類進(jìn)化提供了新視角。人類與其他靈長(zhǎng)類動(dòng)物的基因組高度相似,但在認(rèn)知能力、語(yǔ)言等方面存在巨大差異。這些差異的遺傳基礎(chǔ)一直是科學(xué)界的重大謎題。內(nèi)源性逆轉(zhuǎn)錄病毒序列的物種特異性進(jìn)化,可能是造成這些差異的重要因素之一。
![]()
不同類型逆轉(zhuǎn)錄病毒的系統(tǒng)發(fā)育關(guān)系,并顯示了它們?cè)诓煌瑒?dòng)物宿主中的分布情況,其中的內(nèi)源性逆轉(zhuǎn)錄病毒按照三個(gè)主要類別(Class I、II、III)進(jìn)行分類。(圖片來(lái)源:維基百科)
研究團(tuán)隊(duì)的下一步計(jì)劃是結(jié)合人工智能技術(shù),全面解析內(nèi)源性逆轉(zhuǎn)錄病毒的功能。通過(guò)機(jī)器學(xué)習(xí)算法,他們希望能夠預(yù)測(cè)哪些病毒序列具有調(diào)控功能,以及它們?cè)诓煌?xì)胞類型和發(fā)育階段的作用。這將為精準(zhǔn)醫(yī)療和個(gè)性化治療提供新的靶點(diǎn)。
同時(shí),這種基于進(jìn)化的研究方法也可以應(yīng)用于其他領(lǐng)域。例如,研究流感病毒的突變模式,預(yù)測(cè)下一次流感大流行的可能性;或者分析腫瘤細(xì)胞的進(jìn)化,開(kāi)發(fā)更有效的抗癌策略。
與病毒共舞的生命之歌
回顧生命演化的歷史,病毒與宿主的關(guān)系遠(yuǎn)比我們想象的復(fù)雜。它們不僅是致病的“敵人”,也可能成為進(jìn)化的“盟友”。內(nèi)源性逆轉(zhuǎn)錄病毒序列就是這種復(fù)雜關(guān)系的見(jiàn)證——曾經(jīng)的入侵者,如今成為我們基因組不可分割的一部分,甚至可能塑造了人類獨(dú)特的生物學(xué)特征。
這個(gè)發(fā)現(xiàn)也讓我們重新思考“自我”的定義。如果我們的基因組中8%來(lái)自遠(yuǎn)古病毒,那么什么才是真正的“人類基因”?也許,正是這種基因的“混血”,造就了生命的多樣性和復(fù)雜性。
站在科學(xué)的前沿,我們看到的不是一個(gè)簡(jiǎn)單的黑白世界。今天的“垃圾”DNA,明天可能就是治愈疾病的關(guān)鍵;今天的有害病毒,明天可能成為基因治療的工具。保持開(kāi)放的心態(tài),不斷探索未知,這正是科學(xué)精神的真諦。
在基因組這部生命之書(shū)中,每一個(gè)序列都可能隱藏著進(jìn)化的秘密。內(nèi)源性逆轉(zhuǎn)錄病毒的故事告訴我們:生命的復(fù)雜性遠(yuǎn)超我們的想象,而探索這種復(fù)雜性的旅程,才剛剛開(kāi)始。
參考文獻(xiàn):
[1] Chen X, et al. A phylogenetic approach uncovers cryptic endogenous retrovirus subfamilies in the primate lineage. Science Advances, 2025.
出品:科普中國(guó)
作者:郭菲(煙臺(tái)大學(xué))
監(jiān)制:中國(guó)科普博覽
來(lái)源 | 科學(xué)大院 (ID:kexuedayuan)
未經(jīng)授權(quán),禁止二次轉(zhuǎn)載,如有需要請(qǐng)聯(lián)系cas@cnic.cn
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.