![]()
OpenAI于周一宣布,將為其 AI 編程工具 Codex 推出新版 GPT-5。該公司表示,這款名為 “GPT-5-Codex” 的新模型,其“思考” 時(shí)間的分配比前代模型更具動(dòng)態(tài)性,完成一項(xiàng)編程任務(wù)的耗時(shí)可從幾秒到 7 小時(shí)不等。
目前,GPT-5-Codex已開始在 Codex 系列產(chǎn)品中逐步推出。用戶可通過終端、集成開發(fā)環(huán)境(IDE)、GitHub 或ChatGPT 訪問該工具,且所有 ChatGPT Plus、Pro、Business、Edu 及企業(yè)版(Enterprise)用戶均可使用。OpenAI 稱,未來計(jì)劃向 API 客戶開放該模型的使用權(quán)限。
OpenAI希望在與 Claude Code、Anysphere 旗下的 Cursor、微軟 GitHub Copilot 等其他 AI 編程產(chǎn)品展開競爭。當(dāng)前市場中,AI 編程工具市場的競爭已愈發(fā)激烈。2025 年初,Cursor 的年度經(jīng)常性收入(ARR)突破 5 億美元;而另一款類似代碼編輯器 Windsurf 則成為多方競購的焦點(diǎn),OpenAI 表示,GPT-5-Codex 的表現(xiàn)均優(yōu)于普通 GPT-5:一是衡量智能體編程能力的基準(zhǔn)測(cè)試 SWE-bench Verified,二是針對(duì)大型成熟代碼庫中代碼重構(gòu)任務(wù)的性能測(cè)試。
可以說,在AI工具應(yīng)用方面,各大巨頭都是不遺余力地進(jìn)行創(chuàng)新和不斷地技術(shù)迭代。有人說,GPT-5-Codex最顛覆性的突破,是讓AI首次擁有了自主分配"思考時(shí)間"的能力。在SWE-bench Verified基準(zhǔn)測(cè)試中,這個(gè)特性使其以74.5%的準(zhǔn)確率超越GPT-5的72.8%,更在代碼重構(gòu)任務(wù)中實(shí)現(xiàn)碾壓——51.3%對(duì)33.9%的得分差距,相當(dāng)于資深工程師與初級(jí)開發(fā)者的能力鴻溝。這種差距的根源,在于傳統(tǒng)AI模型像剛?cè)胄械男氯耍瑹o論任務(wù)難易都匆匆交卷,而新版Codex學(xué)會(huì)了像專家一樣判斷:簡單的API調(diào)用幾秒完成,復(fù)雜的算法優(yōu)化則投入數(shù)小時(shí)迭代。
OpenAI的動(dòng)態(tài)時(shí)間分配機(jī)制顯然也是從實(shí)際應(yīng)用出發(fā),不同于傳統(tǒng)路由機(jī)制在任務(wù)初期就固定資源分配,GPT-5-Codex能在處理過程中實(shí)時(shí)調(diào)整策略。正如產(chǎn)品負(fù)責(zé)人恩比里科斯所言:"它可能在5分鐘后決定需要再投入1小時(shí),這種靈活性讓AI首次具備了處理開放性編程問題的能力。"在實(shí)際測(cè)試中,模型會(huì)對(duì)復(fù)雜任務(wù)進(jìn)行多輪測(cè)試-反饋循環(huán),甚至?xí)鲃?dòng)重構(gòu)代碼結(jié)構(gòu),這種"自我糾錯(cuò)"能力使其錯(cuò)誤評(píng)論率從GPT-5的13.7%驟降至4.4%。
這種變革直擊編程痛點(diǎn)。在追求"秒級(jí)響應(yīng)"的AI時(shí)代,GPT-5-Codex的7小時(shí)模式顯得格格不入,卻意外解決了編程效率的核心矛盾。傳統(tǒng)AI工具雖快但質(zhì)量堪憂,某調(diào)查顯示開發(fā)者平均要花40%時(shí)間修正AI生成的錯(cuò)誤代碼。而新版Codex通過延長思考時(shí)間,將"高影響力建議"占比從39.4%提升至52.4%,每個(gè)PR的平均評(píng)論數(shù)從1.32條降至0.93條,大幅減少了來回修改的內(nèi)耗。
可以說,AI不僅完成了代碼生成,還自主編寫了符合ISO 26262安全標(biāo)準(zhǔn)的測(cè)試用例。過去需要安全專家審核兩周,現(xiàn)在Codex花5小時(shí)生成的測(cè)試套件直接通過認(rèn)證。這種效率提升來自模型對(duì)任務(wù)本質(zhì)的深刻理解——它知道哪些地方需要慢下來,哪些可以快速處理。
開發(fā)工具鏈的深度整合放大了這種優(yōu)勢(shì)。GPT-5-Codex與VS Code的無縫銜接,使其能在IDE中完成從代碼生成、測(cè)試到PR提交的全流程。有開發(fā)者分享,通過分階段指令(先建端點(diǎn)、再加認(rèn)證、最后寫測(cè)試),12小時(shí)內(nèi)完成了原本需要三周的用戶系統(tǒng)開發(fā)。這種效率并非來自速度,而是AI具備了類似人類的項(xiàng)目管理能力。可以說,GPT-5-Codex的推出,將AI編程工具的競爭推向了新維度。當(dāng)Claude-3.5在PaperBench綜合測(cè)試中領(lǐng)先時(shí),OpenAI選擇在編程垂直領(lǐng)域構(gòu)筑壁壘。
相比通用大模型,GPT-5-Codex的分詞器針對(duì)代碼場景優(yōu)化,增加空格專用token使代碼表示效率提升30%;推理機(jī)制采用核采樣技術(shù),遇到關(guān)鍵語法自動(dòng)終止,避免無效代碼膨脹。這種針對(duì)性設(shè)計(jì)使其在處理Python、Go甚至冷門的OCaml語言時(shí)都游刃有余,重構(gòu)任務(wù)的跨語言兼容性評(píng)分比競品高27%。當(dāng)然,也有批評(píng)者指出,7小時(shí)的響應(yīng)時(shí)間不適合敏捷開發(fā),而按計(jì)算時(shí)長計(jì)費(fèi)的模式可能增加成本。更深刻的挑戰(zhàn)在于人機(jī)協(xié)作模式的重構(gòu)——當(dāng)AI能獨(dú)立完成復(fù)雜任務(wù)時(shí),開發(fā)者的角色將從編碼者轉(zhuǎn)型為需求定義者和結(jié)果審核者。
從秒級(jí)響應(yīng)到小時(shí)級(jí)思考,GPT-5-Codex的時(shí)間革命揭示了AI發(fā)展的新規(guī)律:真正的智能不在于速度,而在于判斷何時(shí)該快、何時(shí)該慢。當(dāng)AI開始像人類專家一樣分配時(shí)間,當(dāng)12小時(shí)的深度工作能替代三周的重復(fù)勞動(dòng),編程行業(yè)的效率標(biāo)準(zhǔn)和人才需求都將被重新定義。或許,未來的程序員考核,可能不再是敲代碼的速度,而是給AI提需求的精準(zhǔn)度。在這場靜默的革命中,時(shí)間不僅是度量效率的單位,更成為AI理解復(fù)雜世界的新維度。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.