日前,在2025金融街論壇年會上,《每日經濟新聞》記者(以下簡稱“NBD”)現場采訪到美國國家科學院院士、清華大學興華卓越講席教授、清華大學統計與數據科學系主任劉軍教授。
他認為,AI(人工智能)要實現更高層次的發展,可能需要突破當前大模型靠統計概率“預測下一個詞元(Token)”模式內在形成的潛在瓶頸。雖然現行方法對這一模式有各種細節上的改進,但還沒有找到另一個更高級的主導模式。
劉軍教授一直從事貝葉斯統計理論、蒙特卡洛方法、統計機器學習、狀態空間模型和時間序列、生物信息學等方向的研究,并做出杰出貢獻,對大數據處理和機器學習領域有深遠影響。
劉軍在采訪中也談到統計學自身發展。他指出,數十年來,生物醫學和其他大規模數據生成技術的發展驅動了統計學基礎學科持續前行。
記者了解到,劉軍教授提出的“Gibbs保守串抽樣和指針”曾是生物學者尋找DNA和蛋白序列中精巧模式的最流行的兩種算法之一,在了解基因調控和蛋白同源性方面有非常成功的應用。
![]()
劉軍教授演講現場 來源:每經記者 張壽林 攝
NBD:大型語言模型依托大數據與統計概率,通過持續預測下一個字生成語言回復,這與外界以為的AI按照語義來推理判斷有很大不同。你如何看待這一問題?
劉軍:如果認為大型語言模型理解語義,那就是浪漫敘事。大語言模型的基石就是“Next Token Prediction”,即一個字一個字地預測,并未真正“理解”語言本身,盡管DeepSeek、ChatGPT等工具經常會給出驚艷的結果。“Next Token Prediction”在統計專業上又叫“Auto Regressive Model”,即自回歸模型,通過詞語(時間)序列間的關聯,一步步向前預測。從這個角度看,它有可能成為AI模型向更高層次發展的一個潛在瓶頸,因此,語言模型或許需要考慮下一步如何突破這種思路。
事實上,目前已有人在嘗試新的思路,不再是一個字一個字地預測,而是可以一段一段地生成,類似于先搭建一個句子框架,再填充具體字詞。
在這一思路下,訓練時每一個字是隱碼,即字碼所在位置為空,相當于通過去噪的方式生成結果。據反映,這一方法的結果還不錯,但目前看很難說比“Next Token Prediction”效果更好。
這種整體規劃式生成語言的模式,更像人類思考和表達過程,這一模式的繼續發展可能會帶來新的驚喜,但其前景尚存在不確定性。
NBD:統計學基礎領域發展至今,已相當成熟。當前,該學科基礎領域還面臨哪些待解問題?
劉軍:統計學是一門開放學科,換言之,它并非有一套固定的問題等著去解決,也不會因某類問題的解決而宣告“完成發展”。
統計學科的很多問題源自實踐。比如,由于大家關注大模型的相關問題,統計學中高維數據方面的問題也獲得更多討論,這就是應用驅導下的問題和方法探索。
回顧統計學最初發展,該學科主要受天文星象學研究和社會人口研究驅動。進入20世紀,由于遺傳學發展、農業育種、工業實驗設計發展等,統計學進一步發展。
以英國統計學家費希爾為例,他同時也是知名遺傳學家。針對群體遺傳研究的需求,他提出了著名的概率論進化模型;針對農業實驗的需求,他又提出了隨機拉丁方設計方法,以及方差分析等統計推斷理論與方法。
數十年來,醫學、生物學的快速發展驅動統計學不斷前行。我自身也在從事生物信息學方面的研究。以分子生物學為例,基因芯片信息中隱含著細胞內基因的表達與否。通過分析這些基因的遺傳與變異規律,可判斷特定變異與疾病的關聯,進而為針對性藥物開發提供支持。這些過程均需要統計學不斷更新自身方法以適配需求。
NBD:外界也比較關注統計學的另一個應用場景,即股票投資。這也是一個概率決策的過程。從這一角度,統計學專業背景的投資者能否在股票投資上表現更優?
劉軍:據我所知,投資機構確實愿意雇用具有統計專業背景的人。但對于個人投資,統計學學得扎實并不意味著個人投資業績一定就好,因為投資還需要研究宏觀經濟等多個方面,并且需要大量訓練、大量資金和精力。因此,對于個人而言,精力上可能不足以應對,資金量也無法支持頻繁買賣。整體看,還是大型頭部投資機構和對沖基金在投資上表現更佳
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.