![]()
OpenAI 剛剛推出了 GPT-5-Codex ——這是在 GPT-5 基礎上專門為軟件工程優化的版本,也是 Codex 有史以來最大的一次升級,感覺這是全面對標Claude code的一個更新,但又與Claude code不同
![]()
這次更新的核心變化主要有三點:
1.GPT-5-Codex 模型上線:專門訓練于真實世界的復雜工程任務,包括從零搭建項目、大規模重構、生成測試、調試和代碼審查,實現了計算資源的動態調度,可以獨立完成長達7小時的復雜重構任務
2.工具全面升級:Codex CLI 重新設計、IDE 插件支持 VS Code 等主流環境、GitHub 集成更深,云端和本地環境無縫切換
3.代碼審查能力強化:能自動在 PR 中發現關鍵漏洞、減少無效評論,直接提出并實現修改建議。
OpenAI四月首次推出 Codex CLI,五月推出 Codex web ,兩周前將 Codex 統一為一個由 ChatGPT 賬戶連接的單一產品體驗,能夠在本地環境和云端之間無縫切換工作,而不會丟失上下文。現在,Codex 可以在開發的任何地方工作(終端或 IDE、在網頁上、在 GitHub 中, ChatGPT iOS 應用中)
現在可以在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 訂閱方案中使用,使用額度根據方案不同而異,Business 和 Enterprise 方案還提供購買額外積分或共享積分池的選項。GPT-5-Codex 計劃很快通過 API 提供,詳情請看 ChatGPT 使用限制
https://developers.openai.com/codex/pricing
終端體驗:
$ npm i -g @openai/codex 
以下是詳細信息:
此次升級的核心是全新的 GPT-5-Codex 模型。作為 GPT-5 的一個特殊版本,它專為 agentic coding 進行了深度優化。GPT-5-Codex 的訓練數據聚焦于真實世界的軟件工程場景,使其能夠勝任從零構建完整項目、添加功能與測試、調試、執行大規模代碼重構,乃至進行嚴謹代碼審查等全方位任務
本次更新還統一了 Codex 的產品體驗。用戶現在可以通過單一的 ChatGPT 賬戶,在本地環境和云端之間無縫切換工作,而無需擔心上下文丟失。Codex 已深度集成到開發者日常的全流程中,覆蓋終端、IDE、網頁、GitHub,甚至 ChatGPT iOS 應用。功能已包含在 ChatGPT Plus、Pro、Business、Edu 及 Enterprise 方案中
此次升級的目標是打造一個能深刻理解用戶工作上下文、與開發者并肩作戰、并能可靠地為團隊分擔任務的編程隊友
GPT-5-Codex本體
GPT-5-Codex 經過專門訓練,具備更強的可引導性,能更精準地遵循 AGENTS.md 文件中的指令,并生成更高質量的代碼。開發者只需簡單描述需求,即可獲得符合預期的成果,無需再為編碼風格或代碼整潔度編寫冗長的指令
1. 在關鍵基準測試中表現卓越
GPT-5-Codex 的強大能力在多個行業標準和內部基準測試中得到了驗證
![]()
在SWE-bench Verified (n=500)基準測試中,GPT-5-Codex 的準確率達到 74.5%,超越了 GPT-5 的 72.8%
在極具挑戰性的代碼重構任務(涵蓋 Python, Go, OCaml 等語言)上,其性能提升尤為顯著,準確率從 33.9% 大幅躍升至 51.3%。一個典型的例子是,它成功處理了一個來自 Gitea 的 Pull Request,該任務涉及修改 232 個文件和 3,541 行代碼
2. 動態調整思考時間,兼顧速度與深度
GPT-5-Codex 的一個關鍵特性是它能根據任務的復雜性動態調整計算資源。對于定義明確的小請求或實時聊天,其響應會非常迅速;而對于大型重構等復雜任務,它會投入更長的時間進行持久、獨立的執行。測試結果顯示,GPT-5-Codex 能夠連續獨立工作超過7個小時,不斷迭代實現方案、修復測試失敗,并最終成功交付
![]()
這種效率也體現在tokens生成上。根據 OpenAI 內部員工流量數據顯示,對于簡單任務(token生成量最低的10%),GPT-5-Codex 比 GPT-5 減少了93.7%的token。而對于需要深度推理的復雜任務(token生成量最高的10%),它會投入更多資源,token生成量增加了102.2%,以確保高質量的輸出
3. 更精準、更高質量的代碼審查
GPT-5-Codex 經過專門訓練,擅長發現代碼中的關鍵缺陷。它會導航代碼庫,梳理依賴關系,并運行代碼和測試來驗證正確性。評估結果顯示:
![]()
不正確評論大幅減少:由 GPT-5-Codex 提出的不正確評論比例從 13.7% 驟降至 4.4%。
高影響力評論顯著增加:其提出的高影響力評論比例從 39.4% 提升至 52.4%
更聚焦重點:它平均每個 PR 提出的評論數更少(從1.32降至0.93),這意味著它更專注于提出關鍵、有價值的建議,避免了信息過載
此外,GPT-5-Codex 在前端任務中也非常強,能夠創建美觀的桌面和移動應用。具備多模態能力,可以接收用戶提供的圖像或截圖作為輸入,在云端工作中直觀地檢查其進度,并向用戶展示其工作的截圖
需要注意的是: 與通用模型 GPT-5 不同,官方建議僅在 Codex 或類似的代理式編程環境中使用
Codex 生態系統全面更新
為使 Codex 成為更出色的結對程序員,其整個生態系統也獲得了全面更新
1. 全新 Codex CLI
OpenAI 依據社區的反饋,對開源的 Codex CLI 進行了重建。現在,它支持:
附加和分享圖像:直接在 CLI 中發送截圖、線框圖和設計稿,以建立清晰的設計共識
智能任務跟蹤:對于復雜工作,Codex 會生成一個待辦事項列表來跟蹤進度
強大的工具集:集成了網頁搜索、MCP 等工具,以連接外部系統,且工具使用更加準確
優化的終端 UI:工具調用和代碼差異(diffs)的展示格式更清晰易讀
簡化的審批模式:提供只讀、自動(工作區外需審批)和完全訪問三種模式,并支持壓縮對話狀態以管理長會話。詳情請看 Codex CLI 快速入門
![]()
https://developers.openai.com/codex/cli
2. Codex IDE 擴展
Codex 現已深入集成到開發者的 IDE 中,支持 VS Code、Cursor 及其他 VS Code 分支
利用本地上下文:Codex 能利用用戶已打開的文件和選中的代碼,讓用戶用更短的提示獲得更快、更精準的結果
無縫云端協作:用戶可以在 IDE 內創建云端任務、跟蹤進度、審查結果,甚至直接在 IDE 中打開云端任務進行最后修改,Codex 會全程保持上下文同步。詳情請看 IDE 擴展快速入門
![]()
https://developers.openai.com/codex/ide
3. Codex 云
云端代理現在更貼近開發工作流,讓用戶無需離開編輯器或 GitHub 即可委派任務
性能大幅提升:通過容器緩存技術,新任務和后續操作的中位完成時間縮短了90%
自動化環境設置:Codex 會自動掃描并執行項目中的設置腳本(如 pip install),以配置運行環境和依賴
可視化工作流:與 CLI 類似,用戶可以使用圖像分享設計規范或UI錯誤。Codex 可以在自己的瀏覽器中構建、迭代,并附上最終成果的截圖到任務或 GitHub PR 中。詳情請看官方文檔
![]()
https://developers.openai.com/codex/cloud
4. 智能代碼審查
Codex 的代碼審查遠超傳統的靜態分析工具。它能理解 PR 的真實意圖,結合整個代碼庫和依賴關系進行推理,并執行代碼和測試來驗證行為
自動化審查流程:為 GitHub 倉庫開啟后,Codex 會在 PR 從草稿變為就緒時自動進行審查并發布分析報告
交互式修復:如果 Codex 建議修改,用戶可以直接在 PR 評論區要求它來實施
按需觸發:用戶也可以通過 @codex review 或更具體的指令(如 @codex review for security vulnerabilities)來隨時請求審查
在 OpenAI 內部,Codex 已經審查了其絕大多數的 PR,每天捕獲數百個問題,極大地提升了團隊的開發速度和信心
https://developers.openai.com/codex/cloud/code-review
安全
沙盒環境:默認情況下,無論本地還是云端,Codex 都在禁用了網絡訪問的沙盒中運行,以防止有害操作和提示注入攻擊
權限控制:在執行潛在危險操作前,Codex 會請求用戶許可。開發者可以根據風險承受能力自定義安全設置,例如在云端限制網絡訪問到受信任的域,或在 CLI/IDE 中審批高權限命令
透明與可追溯:Codex 會提供引用、終端日志和測試結果,幫助用戶理解它的工作過程。官方始終建議將 Codex 視為輔助審查工具,而非人類審查的替代品
與 OpenAI 對 GPT-5 的方法一致,GPT-5-Codex 在生物和化學領域被視為高能力模型,并已實施了嚴格的安全措施來最小化相關風險。詳情請看其系統卡附錄
參考:
https://openai.com/index/introducing-upgrades-to-codex/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.