網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI推出Codex應(yīng)用的GPT5，搶奪應(yīng)用市場機(jī)會(huì)

2025-09-16 08:56:24　來源: 刀馬物語

山西舉報(bào)

分享至

OpenAI于周一宣布，將為其 AI 編程工具 Codex 推出新版 GPT-5。該公司表示，這款名為 “GPT-5-Codex” 的新模型，其“思考” 時(shí)間的分配比前代模型更具動(dòng)態(tài)性，完成一項(xiàng)編程任務(wù)的耗時(shí)可從幾秒到 7 小時(shí)不等。

目前，GPT-5-Codex已開始在 Codex 系列產(chǎn)品中逐步推出。用戶可通過終端、集成開發(fā)環(huán)境（IDE）、GitHub 或ChatGPT 訪問該工具，且所有 ChatGPT Plus、Pro、Business、Edu 及企業(yè)版（Enterprise）用戶均可使用。OpenAI 稱，未來計(jì)劃向 API 客戶開放該模型的使用權(quán)限。

OpenAI希望在與 Claude Code、Anysphere 旗下的 Cursor、微軟 GitHub Copilot 等其他 AI 編程產(chǎn)品展開競爭。當(dāng)前市場中，AI 編程工具市場的競爭已愈發(fā)激烈。2025 年初，Cursor 的年度經(jīng)常性收入（ARR）突破 5 億美元；而另一款類似代碼編輯器 Windsurf 則成為多方競購的焦點(diǎn)，OpenAI 表示，GPT-5-Codex 的表現(xiàn)均優(yōu)于普通 GPT-5：一是衡量智能體編程能力的基準(zhǔn)測(cè)試 SWE-bench Verified，二是針對(duì)大型成熟代碼庫中代碼重構(gòu)任務(wù)的性能測(cè)試。

可以說，在AI工具應(yīng)用方面，各大巨頭都是不遺余力地進(jìn)行創(chuàng)新和不斷地技術(shù)迭代。有人說，GPT-5-Codex最顛覆性的突破，是讓AI首次擁有了自主分配"思考時(shí)間"的能力。在SWE-bench Verified基準(zhǔn)測(cè)試中，這個(gè)特性使其以74.5%的準(zhǔn)確率超越GPT-5的72.8%，更在代碼重構(gòu)任務(wù)中實(shí)現(xiàn)碾壓——51.3%對(duì)33.9%的得分差距，相當(dāng)于資深工程師與初級(jí)開發(fā)者的能力鴻溝。這種差距的根源，在于傳統(tǒng)AI模型像剛?cè)胄械男氯耍瑹o論任務(wù)難易都匆匆交卷，而新版Codex學(xué)會(huì)了像專家一樣判斷：簡單的API調(diào)用幾秒完成，復(fù)雜的算法優(yōu)化則投入數(shù)小時(shí)迭代。

OpenAI的動(dòng)態(tài)時(shí)間分配機(jī)制顯然也是從實(shí)際應(yīng)用出發(fā)，不同于傳統(tǒng)路由機(jī)制在任務(wù)初期就固定資源分配，GPT-5-Codex能在處理過程中實(shí)時(shí)調(diào)整策略。正如產(chǎn)品負(fù)責(zé)人恩比里科斯所言："它可能在5分鐘后決定需要再投入1小時(shí)，這種靈活性讓AI首次具備了處理開放性編程問題的能力。"在實(shí)際測(cè)試中，模型會(huì)對(duì)復(fù)雜任務(wù)進(jìn)行多輪測(cè)試-反饋循環(huán)，甚至?xí)鲃?dòng)重構(gòu)代碼結(jié)構(gòu)，這種"自我糾錯(cuò)"能力使其錯(cuò)誤評(píng)論率從GPT-5的13.7%驟降至4.4%。

這種變革直擊編程痛點(diǎn)。在追求"秒級(jí)響應(yīng)"的AI時(shí)代，GPT-5-Codex的7小時(shí)模式顯得格格不入，卻意外解決了編程效率的核心矛盾。傳統(tǒng)AI工具雖快但質(zhì)量堪憂，某調(diào)查顯示開發(fā)者平均要花40%時(shí)間修正AI生成的錯(cuò)誤代碼。而新版Codex通過延長思考時(shí)間，將"高影響力建議"占比從39.4%提升至52.4%，每個(gè)PR的平均評(píng)論數(shù)從1.32條降至0.93條，大幅減少了來回修改的內(nèi)耗。

可以說，AI不僅完成了代碼生成，還自主編寫了符合ISO 26262安全標(biāo)準(zhǔn)的測(cè)試用例。過去需要安全專家審核兩周，現(xiàn)在Codex花5小時(shí)生成的測(cè)試套件直接通過認(rèn)證。這種效率提升來自模型對(duì)任務(wù)本質(zhì)的深刻理解——它知道哪些地方需要慢下來，哪些可以快速處理。

開發(fā)工具鏈的深度整合放大了這種優(yōu)勢(shì)。GPT-5-Codex與VS Code的無縫銜接，使其能在IDE中完成從代碼生成、測(cè)試到PR提交的全流程。有開發(fā)者分享，通過分階段指令（先建端點(diǎn)、再加認(rèn)證、最后寫測(cè)試），12小時(shí)內(nèi)完成了原本需要三周的用戶系統(tǒng)開發(fā)。這種效率并非來自速度，而是AI具備了類似人類的項(xiàng)目管理能力。可以說，GPT-5-Codex的推出，將AI編程工具的競爭推向了新維度。當(dāng)Claude-3.5在PaperBench綜合測(cè)試中領(lǐng)先時(shí)，OpenAI選擇在編程垂直領(lǐng)域構(gòu)筑壁壘。

相比通用大模型，GPT-5-Codex的分詞器針對(duì)代碼場景優(yōu)化，增加空格專用token使代碼表示效率提升30%；推理機(jī)制采用核采樣技術(shù)，遇到關(guān)鍵語法自動(dòng)終止，避免無效代碼膨脹。這種針對(duì)性設(shè)計(jì)使其在處理Python、Go甚至冷門的OCaml語言時(shí)都游刃有余，重構(gòu)任務(wù)的跨語言兼容性評(píng)分比競品高27%。當(dāng)然，也有批評(píng)者指出，7小時(shí)的響應(yīng)時(shí)間不適合敏捷開發(fā)，而按計(jì)算時(shí)長計(jì)費(fèi)的模式可能增加成本。更深刻的挑戰(zhàn)在于人機(jī)協(xié)作模式的重構(gòu)——當(dāng)AI能獨(dú)立完成復(fù)雜任務(wù)時(shí)，開發(fā)者的角色將從編碼者轉(zhuǎn)型為需求定義者和結(jié)果審核者。

從秒級(jí)響應(yīng)到小時(shí)級(jí)思考，GPT-5-Codex的時(shí)間革命揭示了AI發(fā)展的新規(guī)律：真正的智能不在于速度，而在于判斷何時(shí)該快、何時(shí)該慢。當(dāng)AI開始像人類專家一樣分配時(shí)間，當(dāng)12小時(shí)的深度工作能替代三周的重復(fù)勞動(dòng)，編程行業(yè)的效率標(biāo)準(zhǔn)和人才需求都將被重新定義。或許，未來的程序員考核，可能不再是敲代碼的速度，而是給AI提需求的精準(zhǔn)度。在這場靜默的革命中，時(shí)間不僅是度量效率的單位，更成為AI理解復(fù)雜世界的新維度。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.