網易首頁 > 網易號 > 正文申請入駐

如果中國大模型不再開源

2025-10-21 22:33:37　來源: DeepTech深科技

北京舉報

分享至

美國 AI 圈開始出現“擔心中國開源斷供”的苗頭了嗎？10 月 20 日，在專注于開源模型討論、擁有 55 萬成員的 Reddit 分論壇“r/LocalLLaMA”上，一位網友發布了一則“當中國公司停止提供開源模型時會發生什么？”的提問，并表達了假如中國模型逐漸閉源或開始收費該怎么辦的擔憂。

這一提問引起了眾多討論，在這則貼文之下有一則留言得到了目前最多的點贊，其寫道：“中國受益于開源模式，因為中國經濟更依賴于實體商品的生產，而美國經濟則更依賴于軟件和服務，美國經濟在這方面要脆弱得多?！?/p>

（來源：https://www.reddit.com/r/LocalLLaMA/comments/1ob9vv）

10 月 4 日，曾幫助 Facebook 從數千萬用戶發展至數億用戶的 Meta 早期高管、Social Capital 公司創始人查馬斯·帕里哈皮蒂亞（Chamath Palihapitiya）在知名科技播客“All-in”中直言，盡管他所創立的 Social Capital 公司已經是亞馬遜 AI 托管平臺 Bedrock 的 TOP 20 客戶，但他已經開始將大量中國工作負載轉向中國開源模型 Kimi K2，其表示理由很簡單：“因為 K2 的性能確實足夠強，而且說實話，比 OpenAI 和 Anthropic 便宜太多了?！?/p>

圖 | 查馬斯·帕里哈皮蒂亞（來源：https://www.linkedin.com/in）

在美學者為何轉向中國模型？研究開銷從萬美元驟降至 50 元

如果說帕里哈皮蒂亞的案例距離我們比較遙遠，那么在美國的華人學者或中國留學生可能對此感受更加深刻。上海交通大學本科校友、美國西北大學博士生郁家豪在近期一項研究中，便經歷了選美國模型還是選中國模型的抉擇，但他最終通過使用中國模型將課題花費從上萬美元壓縮到 50 元人民幣。

在上述研究中，他需要針對離線學習數據采集進行模型選擇，最初他打算使用美國 AI 公司 Anthropic 的商業模型 Claude Sonnet 4 進行數據采集，采集一小部分之后發現開銷竟然達到 500 多美元。

進一步評估之后他和同事發現，使用 Claude Sonnet 4 采集完所有數據可能需要高達上萬美元的開銷，這遠遠超出了課題組的預算。于是，他開始尋求替代模型，同時他所需要的替代模型必須具備較好的智能體代碼生成能力。

在此期間，恰逢國產大模型出現了一波井噴式爆發。從 Kimi-K2 到 Qwen3-coder-480B、再到 GLM-4.5，這些國產大模型的價格都遠比 Anthropic 的模型要便宜。

郁家豪進行了幾次小樣本采集實驗，結果發現這三個國產大模型的性能都接近于 Claude Sonnet 4，完全可以作為替代模型。更巧的是，GLM-4.5 在發布之后，其背后公司智譜 AI 推出一個月內試用 1 萬億 tokens 的套餐，這正好與郁家豪的實驗節奏相吻合。

于是，他使用 GLM-4.5 提供的套餐完成了離線數據采集，最終采集數據的開銷從原本的上萬美元壓縮到 50 元人民幣。“在后續的模型微調中，這些數據的質量也很高，并具體反映在微調之后的模型性能上?！庇艏液栏嬖V DeepTech。

與此同時，他所采用的用于微調的模型也是同為國產大模型的 Qwen3-coder-30B，并表示當前全球 AI 領域都在普遍采用最新 Qwen 模型來微調任務。“這些經歷讓我們感慨：在 2023 年，開源領域幾乎只有 Llama，大家進行模型微調研究都只基于 Llama2 進行；在 2025 年，國產大模型已經完成了接力棒的交接，代替 Llama 成為了開源領域的主流，而且和閉源模型的差距也在不斷縮小。”郁家豪表示。

最終，通過使用中國開源模型，他完成了相關研究。眾所周知，本輪 AI 浪潮始于 2022 年末 ChatGPT 的發布，但是中國自 2023 年初奮起直追并做出了一定成績。2024 年秋，智源研究院的 BGE 模型曾登頂 Hugging Face 月度下載榜首。

2024 年年末，Hugging Face 的數據顯示，Qwen2.5-1.5B-Instruct 當年的下載量占比達到 26.6%，均超過 Llama 3 和 Gemma 這些明星開源模型，網友還為此制作了“扎克伯格看著你使用 Qwen 而非 LLaMA”的梗圖。

（來源：X）

（來源：Hugging Face）

同樣是在 2024 年末，國際數學大牛陶哲軒也曾在 X 公開表達過對于 Qwen 模型的認可。

圖 | 陶哲軒在 X 推文中提到 Qwen 模型（來源：X）

2025 年 7 月 30 日，在 Hugging Face 的開源模型榜單前 10 名中有 9 個來自于中國，這 9 個大模型分別屬于智譜、阿里通義、騰訊混元、月之暗面；就這一榜單的前 5 名來說，當時除了第 4 名，其余幾名全部是中國大模型。其中，智譜 AI 的開源模型 GLM-4.5 模型發布之后迅速沖上榜單前列，而這款模型正是前面提到的郁家豪所使用的國產大模型。

（來源：Hugging Face）

同樣是在 2025 年 7 月，美國硅谷風投公司 Benchmark 合伙人比爾·古爾利（Bill Gurley）在 X 寫道，中國開源模型所產生的組合效應非常強大，模型之間可以互相學習，新模型的推出也更容易。

（來源：X）

而就在昨天，DeepSeek 發表了關于 OCR 的新論文，該論文得到了 OpenAI 聯合創始成員之一、前特斯拉自動駕駛總監安德烈·卡帕西（Andrej Karpathy）的盛贊，他在 X 上寫道：“我很喜歡 DeepSeek-OCR 的新論文，這是一個很好的 OCR 模型?！?/p>

（來源：X）

全球 AI 社區依賴“中國開源供給”有多深？

中國大模型目前并未得到所有知名 AI 人士的認可。然而，盡管 DeepMind 創始人戴米斯·哈薩比斯（Demis Hassabis）和 Meta 創始人扎克伯格都曾發表過不太認可中國大模型的言論，但這并不影響在美國的 AI 從業者對于中國模型的選擇。除了郁家豪之外，多名在國外的 AI 學者均表示，他們正在使用中國開源大模型，同時他們也在使用美國大模型。

美國倫斯勒理工學院王革教授告訴 DeepTech：“我們團隊在科研和教學中確實使用過來自中國和美國的開源模型。例如，DeepSeek 等模型具有高度的開放性，易于本地化部署，并且在強化學習驅動的推理方面為我們提供了啟發，這讓我們得以在多模態醫學影像分析和合成生物智能方向上持續探索?！彼赋觯_源模型的最大價值在于，讓研究者能夠自由地進行實驗、復現與改進算法，從而顯著降低創新門檻。

新加坡南洋理工大學助理教授杜宇軒也告訴 DeepTech：“我經常會用到中國的開源大模型，比如 DeepSeek 和 Qwen。這些模型對我們構建面向特定領域的語言模型起到了關鍵作用。它們提供了靈活的訪問權限，使我們能夠基于具體科研任務采用多種策略進行優化，例如進行微調或基于強化學習的 GRPO 優化，從而讓模型能夠更好地適應特定的科研語境和知識體系?！?/p>

同時，開源模型降低了杜宇軒和團隊的消融實驗門檻，讓其能夠查看模型本身的能力對于下游任務到底有多大影響。這不僅讓研究過程更透明，也讓其能在有限的資源下找到性能和成本之間最佳平衡點。

美國南加利福尼亞大學博士生黃騰昊向 DeepTech 表示：“我經常使用 Qwen 模型用來作為后訓練的基座模型，也使用了由中國開源社區貢獻的 VeRL 框架。”（編者注：VeRL 是由字節跳動 Seed 團隊與香港大學團隊聯合開發的強化學習訓練框架，主要用于基于人類反饋的強化學習訓練和智能體訓練。）美國俄亥俄州立大學博士生鄭博元告訴 DeepTech：“對于中國開源模型我用得還挺多的，特別是用 Qwen 和 DeepSeek 系列來做訓練。

它們的優勢主要是：首先，模型能力在開源模型中很強，并且有各種大小和類型的模型，可以滿足各種訓練和實驗要求。以 Qwen 系列模型為例，從 text-only、QwenVL、reasoning model 都有，并且有 3B、7B 乃至更大的不同規格，此外還有 MOE 模型；其次，因為生態比較成熟，所以用起來特別方便，Qwen 在開源社區的支持做得非常好，一些開源框架也讓我們可以非?？焖俚亻_展實驗和驗證想法。”

如果中國開源模型不再開源會怎樣？

目前，全球 AI 社區對于這種“中國開源供給”的依賴程度只增不減。如果這一來源突然中斷，最直接的后果會是什么？

對此，鄭博元直言：“我覺得學術界對中國開源模型的依賴挺深的，特別是很多涉及到模型訓練的工作都是在 Qwen、DeepSeek 之類的模型基礎上的。

如果突然中斷了，就是假設這些 model checkpoint 全都消失了，學術界的很多工作都會很受影響，特別是開源的工作都是相互依賴的，比如一些側重于多模態模型的語言模型部分都會使用 Qwen、DeepSeek 之類的開源模型。”

王革也表示：“目前，全球 AI 開源生態的多樣性在相當程度上依賴于中國研究團隊和企業的貢獻。中國的開源模型在參數規模、性能優化以及多語言適配等方面處于先進地位，并持續推動著整個社區的快速迭代與繁榮。

如果這一供給突然中斷，短期內將導致開源模型的更新速度放緩，研究復現與創新實驗的成本上升。從長遠來看，閉源化趨勢將削弱開放共享與科學協作的精神，造成生態失衡，使全球 AI 創新陷入失諧甚至失控的狀態?！?/p>

杜宇軒認為，開源社區最核心的價值之一，就是避免整個行業過度依賴某一家模型或某個國家的技術體系。開源讓研究者有自由去探索不同的路徑，不會被技術封鎖或商業壟斷限制住。這種“百花齊放”的生態，其實才是推動 AI 長期進步的關鍵。

他繼續說道，中國在全球開源 AI 社區里長期扮演著非常重要的中堅角色，很多中國團隊貢獻的模型、工具和數據集已經成為全球研究者的基礎設施。

如果這部分供給突然中斷，整個開源與閉源之間的平衡就會被打破，AI 研究可能重新回到被少數閉源體系主導的狀態，而那樣不僅不利于創新，也會拖慢人類在更長遠目標上的探索步伐。

鄭博元同時提出了一些其他看法，其表示：“如果中國開源供給真的斷供，可能逐漸也會有新的開源模型出來補上這個生態位。一方面，工業界可能會開源一些較老版本或者蒸餾出來的模型，比如 OpenAI 在今年 8 月發布了 GPT-OSS。

另一方面，英偉達也放出來了很多開源模型，還有美國非營利性研究結構艾倫人工智能研究所也一直在積極推動包括模型數據在內的完全開源?！?/p>

而為了構建一個更具韌性、去中心化且真正全球化的 AI 開源未來，學術界、產業界和開源組織需要倡導或建立哪些新的協作機制與保障？王革認為，建立真正全球性的協作機制并非易事，但醫療健康領域可能是一個理想的起點。例如，通過建設共享算力與模型評測平臺，可以避免資源被少數主體壟斷，從而實現更加公平的科研生態。

他舉例稱，美國紐約州的 EmpireAI 項目就是一個值得借鑒的案例，該項目通過公共資金支持開放 AI 研究，為學術界提供算力基礎設施。因此，科學界應持續推動開放科學政策，在保護知識產權與促進科研共享之間取得平衡，確保開源 AI 生態的長期可持續發展。

杜宇軒則補充說，AI 開源的未來需要產學研與開源機構之間形成一個相互支撐的協作模式：學術界可以發揮引領作用，推動開放標準、開放數據和可復現研究，把知識共享放在首位，并主動去挑戰產業界的前沿問題，而非僅僅關注論文數量或模型性能；產業界則應持續加大對開源生態的投入，比如開放部分訓練框架、算力平臺或工具鏈，幫助學術界和開發者更高效地驗證新想法；同時，開源組織需要推動跨國、跨機構的共治機制，確保模型和數據的開放是安全、透明且負責任的，并且要防止被濫用。

無論如何，可以預見的是，未來 AI 開源社區可能會形成“中美雙引擎”的格局。那么，你認為中國開源模型會在全球 AI 領域扮演怎樣的角色？如果有一天這些中國開源模型選擇閉源，又會給你帶來怎樣的影響？

參考資料：

https://www.reddit.com/r/LocalLLaMA/comments/1ob9vvk/what_happens_when_chinese_companies_stop/

https://www.pingwest.com/a/301327

https://www.youtube.com/watch?v=ddAwgZ6ietc&t=2983s

https://peking.bjd.com.cn/content/s688b787ce4b0bd64e2e1b61d.html

https://thechinaacademy.org/interview-with-deepseek-founder-were-done-following-its-time-to-lead/

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.