編輯丨王多魚
排版丨水成文
如同人類擁有語言,生命世界也有一套由氨基酸序列構(gòu)成的“分子語言”——蛋白質(zhì)。近年來,人工智能(AI)領(lǐng)域的蛋白質(zhì)語言模型(PLM)展現(xiàn)出解碼這套語言的強大能力,能夠精準預(yù)測蛋白質(zhì)的結(jié)構(gòu)與功能 。
然而,這些尖端模型的訓(xùn)練與使用,往往需要深厚的機器學(xué)習(xí)專業(yè)知識和編程能力,這在 AI 開發(fā)者與廣大生物學(xué)家之間形成了一道鴻溝。
為了打破這一壁壘,2025 年 10 月 24 日,西湖大學(xué)原發(fā)杰團隊在Nature Biotechnology期刊發(fā)表了題為:Democratizing Protein Language Model Training, Sharing and Collaboration 的研究論文。
該研究首先提出了一種新穎的蛋白質(zhì)表征方法——將蛋白質(zhì)一維序列與三維結(jié)構(gòu)相結(jié)合形成“結(jié)構(gòu)感知”詞匯表并據(jù)此訓(xùn)練出了蛋白質(zhì)語言大模型——Saprot。在此基礎(chǔ)上,團隊進一步推出了SaprotHub開源平臺 。
該平臺旨在將Saprot等一系列先進蛋白質(zhì)語言模型的能力開放給生命科學(xué)領(lǐng)域研究者,它也是開放蛋白質(zhì)模型聯(lián)盟(Open Protein Modeling Consortium,OPMC)為推動全球科研協(xié)作、共建開源社區(qū)而邁出的關(guān)鍵第一步。
![]()
蛋白質(zhì)研究的挑戰(zhàn):從模型“孤島”到協(xié)作“藍海”
蛋白質(zhì)是生命活動的基石,近年來,以 AlphaFold2 為代表的蛋白質(zhì)語言模型(PLM)在預(yù)測蛋白質(zhì)結(jié)構(gòu)與功能方面取得了革命性突破 。然而,這些強大的 AI 工具如同精密的專業(yè)設(shè)備,其訓(xùn)練和部署通常需要深厚的機器學(xué)習(xí)知識,這為廣大從事實驗研究的生物學(xué)家設(shè)置了難以逾越的技術(shù)鴻溝 。從復(fù)雜的編程環(huán)境配置,到海量數(shù)據(jù)的預(yù)處理,再到模型訓(xùn)練和評估,整個流程充滿了挑戰(zhàn) 。這不僅限制了AI技術(shù)的普及,也減緩了其在醫(yī)藥、生物技術(shù)等領(lǐng)域的創(chuàng)新應(yīng)用進程 。
![]()
圖1. Saprot模型架構(gòu)
SaprotHub:三大支柱構(gòu)建的開源協(xié)作新范式
為了應(yīng)對這一挑戰(zhàn),研究團隊構(gòu)建了以 SaprotHub 為核心的一站式解決方案,它不僅是一個平臺,更是一個融合了前沿 AI 大模型技術(shù)、開源工具和全球社區(qū)的完整生態(tài)系統(tǒng):
核心引擎——Saprot 語言模型:Saprot 是本項工作的基石。它開創(chuàng)性地提出了一種“結(jié)構(gòu)感知”(Structure-Aware)詞匯表,將蛋白質(zhì)的一維氨基酸序列與其三維局部結(jié)構(gòu)信息進行聯(lián)合編碼,從而構(gòu)建出一種全新的蛋白質(zhì)“語言”。同時,研究團隊基于 AlphaFold2 預(yù)測的數(shù)千萬個蛋白質(zhì)結(jié)構(gòu),采用了 64 塊 NVIDIA A100 GPU,經(jīng)過數(shù)月訓(xùn)練完成了 Saprot 模型的訓(xùn)練。其性能在數(shù)十項蛋白質(zhì)功能預(yù)測任務(wù)中得到了充分驗證,并成功超越了如 ESM-2 等業(yè)界頂尖模型。
自發(fā)布以來,Saprot 模型在學(xué)術(shù)界與工業(yè)界獲得了廣泛的關(guān)注和應(yīng)用。相關(guān)論文被引用已超過 200 次,模型累 計下載量逾 70 萬次,并獲得了大量來自社區(qū)的真實生物實驗驗證,彰顯了其作為基礎(chǔ)模型的影響力。值得一提的是,Saprot 于 2024 年 5 月登頂 ProteinGym 蛋白質(zhì)突變效應(yīng)預(yù)測排行榜,并在此后近半年的時間里持續(xù)排名第一。
開源工具—— “一鍵式”蛋白質(zhì)語言模型訓(xùn)練平臺 ColabSaprot:為了將 Saprot 的能力釋放給生命科學(xué)領(lǐng)域的研究者,團隊基于免費的 Google Colab 云平臺,通過數(shù)月開發(fā),上萬行的代碼編寫,實現(xiàn) ColabSaprot “一鍵式”開源訓(xùn)練平臺(鏈接:https://colab.research.google.com/github/westlake-repl/SaprotHub/blob/main/colab/SaprotHub_v2.ipynb)
它將原本需要編寫繁瑣代碼才能進行的蛋白質(zhì)語言模型微調(diào)、功能預(yù)測等任務(wù),簡化為用戶在網(wǎng)頁上的幾次鼠標點擊,讓不具備編程背景的生物學(xué)家也能輕松訓(xùn)練前沿蛋白質(zhì)語言模型,實現(xiàn)從想法到驗證的快速迭代 。為了方便研究者快速上手,團隊錄制了詳細的教程視頻,涵蓋了從模型訓(xùn)練到使用等各個方面(國內(nèi)鏈接:https://www.bilibili.com/video/BV1Y1i9YBEhv;國外鏈接:https://www.youtube.com/watch?v=nmLtjlCI_7M)。
全球協(xié)作——OPMC 成員共建的開放社區(qū):SaprotHub 不僅僅是蛋白質(zhì)語言模型的共享中心,更是開放蛋白質(zhì)模型聯(lián)盟(OPMC)理念的先行者。該聯(lián)盟匯聚了來自西湖大學(xué)、麻省理工學(xué)院、首爾大學(xué)、哈佛大學(xué)、慕尼黑工業(yè)大學(xué)、微軟等全球數(shù)十家頂尖科研機構(gòu)的研究力量 ,旨在共同推進蛋白質(zhì)領(lǐng)域的蓬勃發(fā)展。為了實現(xiàn)開源共建的良性生態(tài),團隊采用低秩適應(yīng)矩陣(LoRA)的方式保存模型權(quán)重,并建立了 SaprotHub 模型與數(shù)據(jù)倉庫(https://huggingface.co/SaProtHub)。通過將 ColabSaprot 開源平臺與 SaprotHub 進行無縫耦合,OPMC 成員和全球研究者可以便捷地分享、下載和迭代模型。目前,SaprotHub 已經(jīng)存儲了數(shù)十種不同類型的蛋白質(zhì)訓(xùn)練數(shù)據(jù)集以及可供研究者直接預(yù)測的蛋白質(zhì)語言模型。
為了方便研究者快速檢索,團隊針對性地開發(fā)了相應(yīng)的搜索引擎,允許研究者根據(jù)關(guān)鍵詞直接檢索到相關(guān)的數(shù)據(jù)和模型(https://huggingface.co/spaces/SaProtHub/SaprotHub-search)。
![]()
圖2. SaprotHub利用LoRA技術(shù)存儲模型權(quán)重,實現(xiàn)模型的便利共享
從虛擬到現(xiàn)實:計算機模擬性能驗證與多項濕實驗驗證
SaprotHub 的價值不僅在于其便捷性,更在于其預(yù)測準確性。在團隊開展的用戶研究中,12 位沒有 AI 背景的生物學(xué)研究者使用該平臺,取得了與 AI 研究者相媲美的成果。
![]()
圖 3. 生物研究者利用平臺能夠訓(xùn)練出和AI研究者相媲美的成果
更進一步,平臺預(yù)測的有效性在一系列生物濕實驗中得到了驗證:
工業(yè)酶改造:一家生物技術(shù)公司利用 ColabSaprot 對一種工業(yè)用木聚糖酶進行改造,成功將酶的活性提升了 2.55 倍 。
基因編輯工具優(yōu)化:研究人員利用該平臺對 TDG 基因編輯工具進行優(yōu)化,預(yù)測出的多個新版本在實驗中展現(xiàn)出翻倍的編輯效率 。
熒光蛋白設(shè)計:平臺還被用于設(shè)計更亮的綠色熒光蛋白(GFP),其中一個新設(shè)計的蛋白,其熒光亮度達到了原始版本的 8 倍以上 。
這些成功案例證明,SaprotHub 能夠?qū)?AI 的預(yù)測能力轉(zhuǎn)化為現(xiàn)實世界中的生物學(xué)功能突破。
總之,SaprotHub 的發(fā)布,不止是提供了一個工具。它以一個創(chuàng)新的自研蛋白質(zhì)語言模型(Saprot)為基礎(chǔ),通過開源平臺(ColabSaprot)來催化一個全球性的科研協(xié)作網(wǎng)絡(luò)(OPMC)。這為 AI 輔助的生命科學(xué)研究提供了一種可持續(xù)發(fā)展的“開源、共建、共享”模式。目前,該生態(tài)已進一步集成了 ESM-2、ProtT5 等更多業(yè)界主流模型 ,開啟了蛋白質(zhì)科學(xué)的“大航海時代”。
核心突破(Highlights):
全新蛋白質(zhì)語言模型:發(fā)布了具備技術(shù)創(chuàng)新(結(jié)構(gòu)感知詞匯表)的 Saprot 蛋白質(zhì)語言大模型。其在 14 項基準測試中性能超越了 ESM-2 等現(xiàn)有經(jīng)典模型,已在該領(lǐng)域展現(xiàn)了其作為基礎(chǔ)模型的影響力。
開源協(xié)作范式:作為開放蛋白質(zhì)模型聯(lián)盟(OPMC)的第一步,匯聚了來自MIT、哈佛、牛津、首爾大學(xué)等全球頂尖機構(gòu)的智慧,為蛋白質(zhì)領(lǐng)域建立了集模型訓(xùn)練、分享、合作、迭代于一體的開源社區(qū)平臺。
蛋白質(zhì)語言模型技術(shù)民主化:通過“一鍵式”的 ColabSaprot 工具,將先進蛋白質(zhì)語言模型的復(fù)雜訓(xùn)練和使用流程民主化,賦能全球不具備編程背景的生物學(xué)家,使其從 AI 的“使用者”轉(zhuǎn)變?yōu)椤皠?chuàng)造者”和“貢獻者”。
真實場景驗證:平臺的有效性在工業(yè)酶改造、基因編輯工具優(yōu)化等多個真實的濕實驗場景中得到驗證,展示了其通過計算機模擬輔助現(xiàn)實生物學(xué)突破的能力。
西湖大學(xué)原發(fā)杰實驗室現(xiàn)有 2026 年博士研究生招生名額,有意向者可將個人簡歷(含教育背景、科研經(jīng)歷、成果證明等)及相關(guān)材料投遞至指定郵箱,郵件主題請請注明“2026 博士申請 + 姓名。投遞郵箱:yuanfajie@westlake.edu.cn
論文鏈接:
https://www.nature.com/articles/s41587-025-02859-7
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.