此前,我們曾報道過這家由前谷歌 CEO Eric Schmidt 支持的非營利組織 Future House 所推出的 AI 科學家 Robin。該系統不僅能夠自主完成從假設提出、實驗設計到數據分析等關鍵科研環節,還曾為一個復雜眼疾發現了新的潛在藥物,在當時引起了相當廣泛的關注。
![]()
(來源:FutureHouse)
幾個月后,這家非營利研究機構及其新拆分的商業實體 Edison Scientific 又發布了一套更強大的 AI 科學家系統 Kosmos。這個系統在單次運行中可以持續工作 12 至 48 小時,完成相當于人類科研團隊數月才能完成的工作量,且其產出的發現中有近 80% 經獨立專家驗證為準確。
Kosmos 的獨特之處在于,它是首個能夠真正閉環執行“文獻檢索-假設生成-數據分析”完整科研循環的系統,且能夠在數百次迭代中保持邏輯連貫性。在此之前,包括 Sakana 的 AI Scientist 和谷歌的 AI co-scientist 在內的同類系統,要么局限于特定領域,要么缺乏探索性數據分析能力,要么在長鏈推理中容易失控。
FutureHouse 今年 5 月推出 AI 科學家平臺后,商業需求遠超預期。團隊披露,六家全球前十大制藥公司紛紛主動聯系尋求合作,大量生物技術公司請求提高使用限額。這種需求壓力促使團隊做出了戰略調整:將商業化部分拆分成 Edison Scientific,專注產品開發和市場服務,而 FutureHouse 繼續承擔無法獲得其他資金支持的基礎研究。
此次推出的 Kosmos 就已經正式商品化,其標準使用費用為每次運行 200 美元左右,這個價格對應的是系統 12 到 48 小時的完整研究周期。不過 Edison Scientific 的商業策略相對克制。公司承諾保留學術用戶的免費額度,只對需要更高調用頻率或額外功能的重度用戶收費。
Kosmos 的核心在于它采用的“世界模型”(world model)架構。這個概念我們已經耳熟能詳,但在科研自動化場景中的應用并不多見。團隊稱其為系統的“大腦”,它持續整合所有代理發現的信息,識別模式和知識空缺,并戰略性地決定下一步調查方向。與之前的系統相比,這種架構使 Kosmos 能夠運行的迭代次數達到了現有系統的八倍。
![]()
圖丨Kosmos 的工作流與性能表現(來源:Edison Scientific)
具體而言,Kosmos 在每個周期中最多啟動十個文獻搜索和數據分析任務的并行實例,然后將任務輸出的摘要更新到世界模型中。隨后系統查詢世界模型,提出下一輪周期需要完成的任務。這種上下文管理策略讓 Kosmos 能夠同時探索多條研究路徑,平均每次運行會執行 166 次數據分析代理展開和 36 次文獻綜述代理展開。相比之下,該團隊此前發布的 Robin 系統只能生成約 4,310 行代碼,Kosmos 的代碼生成量是其 9.8 倍。
另外,Kosmos 的報告還具有可追溯性。Kosmos 生成的每份科學報告中,每一個論斷都直接鏈接到產生它的數據分析代碼或引用的文獻來源。不僅便于驗證,也讓科學家能夠理解 AI 的推理路徑。
為了驗證這套系統的實用性,研究團隊與多個學術機構合作,在七個不同科學領域測試了 Kosmos 的表現。其中三項發現成功復現了尚未發表或預印本中的研究結果,另外四項則做出了新穎貢獻。
![]()
圖丨Kosmos 的七項發現(來源:Edison Scientific)
比如在代謝組學案例中,Kosmos 拿到的是關于小鼠大腦低溫保護機制的 LC-MS(液相色譜-質譜)數據。人類研究者此前已發現激活特定神經元能誘導低溫并產生神經保護效應,但具體代謝通路尚不明確。
Kosmos 在分析中識別出核苷酸代謝通路受影響最顯著,進一步推斷這是因為核苷酸挽救途徑(nucleotide salvage pathway)被激活——前體分子減少、磷酸化產物增加,這種模式提示細胞正在用更節能的方式回收利用核苷酸,而非從頭合成。這一結論與合作實驗室的未發表手稿高度一致,連關鍵代謝物的變化方向和幅度都幾乎吻合。
在材料科學領域,Kosmos 處理的是鈣鈦礦太陽能電池制備過程中的環境參數數據。這類電池的性能對制備環境極為敏感,溫度、濕度、溶劑蒸氣壓的微小波動都可能導致器件失效。
Kosmos 自主建立了一套“機制排名評分”(Mechanism Rank Score)體系,綜合考慮統計顯著性、多層數據一致性和實驗證據支持度,最終指出熱退火階段的絕對濕度是決定性因素,表現出“致命過濾器”特征——超過某個閾值后器件幾乎必然失效。有意思的是,Kosmos 還發現短路電流密度與旋涂過程中的 DMF(二甲基甲酰胺)溶劑分壓呈線性負相關,這一關系此前未被人類研究者注意到,但后來得到了獨立驗證。
![]()
(來源:arXiv)
不過,Kosmos 也有失手的時候。在對人類基因組數據的分析中, 它試圖用孟德爾隨機化方法找出 2 型糖尿病的保護性蛋白, 過程中共定位分析因數據格式問題失敗。Kosmos 沒有修復流程, 而是轉向了精細定位(fine-mapping)分析, 最終仍然鎖定了 SOD2(超氧化物歧化酶 2)作為候選靶點。這種“繞路”策略體現了系統的適應性,但也暴露出它在遇到意外情況時的處理能力仍不夠穩健。
獨立評估顯示,Kosmos 報告中基于數據分析的陳述有 85.5% 準確,文獻綜述類陳述準確率為 82.1%,但需要跨領域綜合推理的解釋性陳述只有 57.9% 準確。這個數字并不令人驚訝,即使對人類科學家而言,從相關性推導因果關系、從多個線索構建機制假說,也是最容易出錯的環節。
團隊在論文中坦承,Kosmos 傾向于發明一些“非正統的定量指標”,這些指標雖然統計上說得通,但概念上可能晦澀難懂。它也常把統計顯著性等同于科學價值,對實驗結果過度自信。
七位合作學者評估后認為,一次 20 周期的 Kosmos 運行產出的有價值發現數量隨運行時間線性增長,平均相當于 6.2 個月的專家工作量——這比團隊自己估算的 4.1 個月更樂觀。
但值得注意的是,這些學者同時指出,識別哪些發現真正有意義仍然極度依賴人類專家判斷。一份 Kosmos 報告通常包含 3 到 4 個發現敘述,每個敘述基于 8 到 9 條代理軌跡,包含約 25 條具體論斷。逐一驗證這些論斷的準確性、新穎性和重要性,本身就是一項耗時的工作。
這也解釋了為什么 Edison Scientific 強調“科學家在環”(scientist-in-the-loop)的工作模式。Kosmos 的設計初衷不是取代人類研究者,而是承擔繁重的數據探索和文獻梳理工作,讓人類能夠把精力集中在提出問題、評估結果和規劃后續實驗上。
團隊發現,數據質量對 Kosmos 表現影響極大——格式規范、標注清晰、經過預處理的數據集能讓系統更快收斂到有意義的發現,而混亂的原始數據往往導致系統在技術細節上空轉。這提示 Kosmos 目前更適合處理已經經過初步整理的數據,而不是直接面對測序儀輸出的海量原始文件。
目前 Kosmos 的局限性也相當明顯。它只能處理約 5GB 以下的數據集,無法自主訪問公開數據庫進行對照驗證,對圖像或原始測序文件的處理能力較弱。更關鍵的問題在于,多次獨立運行未必能收斂到相同的發現,這種隨機性在探索性研究中可能是優勢,但在需要穩定可靠結論的場景下就成了隱患。
研究目標的措辭微調也會顯著影響系統的探索方向,這提示用戶需要反復迭代提示語,才能讓 Kosmos 朝著預期方向推進。而且當前版本不支持中途干預,科學家無法在運行過程中調整策略或提供反饋,只能等整個流程結束后查看結果。
盡管如此,Kosmos 代表的方向已經比此前的 AI 科學家嘗試走得更遠。Sakana AI 的 AI Scientist 局限于機器學習領域,Google 的 AI co-scientist 不進行實際實驗,而 Virtual Lab 雖然成功設計了 SARS-CoV-2 納米抗體,但缺乏 Kosmos 這樣的通用探索能力。從代謝組學到統計遺傳學,從材料科學到神經科學,Kosmos 展示出跨領域遷移的潛力。如果未來版本能夠接入實驗室自動化設備,形成“提出假設-設計實驗-執行實驗-分析數據”的完整閉環,那么科學發現的速度可能迎來量級躍遷。
One more thing,團隊在測試中發現了一個重要規律:當讓 Kosmos 運行更長時間、執行更多研究循環時,它產出的有價值發現數量呈線性增長。具體來說,如果一次 12 小時的運行相當于人類 6 個月的工作量,那么 24 小時的運行就能完成 12 個月的工作。這種工作量的增長是穩定的、可預測的。在測試中,這種線性關系一直延續到 20 個研究循環。
這一發現被團隊稱為科研領域的“推理時擴展定律”(inference-time scaling law)。不過,團隊也強調,Kosmos 運行時間越長,越容易陷入所謂的“兔子洞”,即追逐那些統計上顯著但科學上毫無意義的相關性,或是在沒有前景的方向上越走越遠。他預計,如果真的把這種擴展推到邏輯極限,最終可能會出現反轉:系統產出的價值不再增長,甚至開始下降。
這個問題的根源在于底層語言模型的判斷能力。當研究深度超過一定閾值,模型需要更強的能力來區分哪些線索值得追蹤,哪些應該果斷放棄。為此,Edison Scientific 正在積極改進底層模型,試圖讓 Kosmos 在更長的運行時間里依然保持科學判斷力。這也意味著,目前的 Kosmos 更適合作為一種“快速探索工具”,在 12 到 48 小時的窗口內發揮最大效用,而非無限延長運行時間。
參考資料:
1.https://arxiv.org/abs/2511.02824
2.https://edisonscientific.com/articles/announcing-kosmos
3.https://edisonscientific.com/articles/announcing-edison-scientific
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.