<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      發布會出錯又無聊的GPT-5,實測下來強的可怕

      0
      分享至



      2025 年 8 月 8 日( 今日凌晨 ),OpenAI 今日正式發布 GPT-5,距離 GPT-4 發布以來已經過去了兩年多。

      自 GPT-4 發布以來,OpenAI 相繼將大語言模型拓展了多模態生成、深度思考、深度研究等關鍵能力,且都是行業首創,每次發布都可以說是 “ 震驚世界 ”。

      相比之下,OpenAI 這次的發布會就顯得沒有那么驚艷或者說有些無聊了。這次,它將所有類型的模型統一在完善的 Agent 框架下,打造出了 GPT-5,使其終于擁有了各家模型廠商都在競逐的 Agentic Coding 能力。

      實際上,說這場發布會并不驚艷,也主要是因為相比各家競爭對手,OpenAI 在 Agentic Coding 研發的進展上要慢,不像之前每次 GPT 代際發布時給人一種 “ 行業首創 ” 的驚艷感

      那么 GPT-5 有達到大家的期待嗎?我們先看看發布會的重點內容。

      首先,最良心的當然是這一次免費用戶也能直接用上 GPT-5,Pro 用戶則能用上最強的 GPT-5 Pro。免費用戶還能持續使用數小時實時語音,這個福利太誘人了!

      GPT-5 號稱在任何領域都有博士級別能力。在醫療健康領域,能夠對專業的癌癥診斷報告做通俗易懂的解讀。對復雜的放射治療方案決策,也能提供詳細的分析報告,幫助病人權衡利弊。一位癌癥患者的家屬在發布會上表示,“ 真正鼓舞人心的是看著她通過使用 GPT-5 重新獲得自主權,病人很容易感到無助,因為知識差距太大了。”

      此外,OpenAI 一直在強調 GPT-5 的兩個特點,那就是簡單易用和快速。

      比如,在 API 調用上,GPT-5 實現了更加靈活的模型和思考強度調節,具體來說就是GPT-5 提供了三個級別的模型選擇:GPT-5、GPT-5 mini、GPT-5 nano,并且每個版本都可以調節推理工作量。

      通過 “ 詳細程度 ”( Verbosity )參數,用戶可以控制輸出更簡潔或更詳細。甚至,它的函數調用都能用自然語言來配置,而不需要用 JSON 格式。



      并且,GPT-5 還將發布一個結構化輸出的擴展,用戶可以提供正則表達式,甚至是上下文無關語法,并將模型的輸出約束到這些語法上。對于想提供自定義 DSL,或者用戶有自己的 SQL 分支并指定模型始終遵循該格式的場景,將非常有用。

      開發中會有很多難以描述的需求或需要非常具體描述的需求,前者容易出錯,后者則耗費心力。OpenAI 指出,GPT-5 在指令遵循上非常擅長。當你輸入了非常模糊的指令,模型會準確推斷你的意圖,當你輸入了非常詳細、專業的指令時,GPT-5 則會直接遵循指令,并注意細微之處,GPT-5 還非常擅長 dubug 和回溯。

      當然,這是各家大模型廠商都會重復的套話,是否真實,看看本文文末的實測案例就知道了。

      基準測試方面,知危還是更關心 GPT-5 的 Agentic Coding 能力,它在 SWE-bench Verified 上達到了 74.9%,恰好前兩天,Claude 4.1 Opus 在該基準上提升到了 74.5%,胡亂猜測是在給 OpenAI 加壓力,導致 GPT-5 最終只是險勝,并且 Anthropic 后面還有大更新,也非常令人期待。





      哦對了,這里要強烈吐槽一句,發布會的直播流里,SWE-bench Verified 的柱狀圖是做錯了的,并不像上圖一樣標準,不知道是不是故意做錯的,用來視覺上凸顯新模型增長較大。



      發布會直播流中的錯誤圖

      作為這次發布會上的第一張圖表,它直接就給熬夜看發布會的我大腦干宕機了。



      插曲結束,我們回歸正題。在更聚焦的多語言代碼編輯、工具調用、通用指令集、指令遵循等基準測試上,GPT-5 也取得了極大的進步。

      對于 Agentic Coding 能力,非常重要的一個方面就是對幻覺率的控制,不然多輪調用模型會導致幻覺累積嚴重,而且目前實際應用中幻覺是無法被自動定位的,基本只能靠人類驗證。GPT-5 也在這方面做了大幅優化,啟用網絡搜索后,GPT-5 的幻覺率比 GPT-4o 低約 45%;啟用思考模式后,GPT-5 的幻覺率比 o3 低約 80%。





      結合 2025 年 8 月 7 日更新的 Hallucination Leaderboard 的 GPT-4o 幻覺率數據估計,GPT-5 的低幻覺率是有競爭第一名的實力的。



      圖源:
      https://github.com/vectara/hallucination-leaderboard

      改善模型欺騙性也非常具有深遠意義,能極大程度減少影響更嚴重的幻覺,比如歪曲操作過程或謊報任務成功率等。o3 曾被指出在缺乏關鍵工具時會偽造工具使用。其它問題還包括任務說明不夠具體,甚至不可能完成時,一本正經地胡亂操作。



      之前的模型在處理這類問題時也比較生硬,只決定完全拒絕或是完全服從。在大多數情況下很有效,但可能被一些巧妙設計的提示詞攻擊所攻破。GPT-5 大大緩解了這類問題的出現,并且使用了更加靈活的處理方式。

      比如,對于看似中性、客觀但實際具有危害性的目的( 比如用戶詢問如何點燃各種煙花中常用的材料的技術細節,可能用于制造炸彈 ),o3、GPT-5 都能準確識別潛在惡意。

      o3 一般都是直接拒絕,GPT-5 則可能只部分回答問題,或者只是抽象地回答。如果不得不拒絕,會告訴用戶拒絕的原因,并提供安全的替代方案。

      另外,值得關注的是,GPT-5 還大幅提升了上下文長度,從 o3 pro 的 200K 提升到了 400K,是 Claude 4 的兩倍,雖然還遠不如 Gemini 2.5 pro 的 1000K,但對于開發者而言也是極大的喜訊。

      新增 200K 的上下文長度有多有用呢?OpenAI 沒有展示,但至少 128K-256K 范圍內,GPT-5 相比內部其它模型有了很大提升。



      API 價格上,GPT-5 甚至比 GPT-4o 還便宜,輸入價格只有 GPT-4o 的 1/2、o3 pro 的 1/16,輸出價格和 GPT-4o 相同且只有 o3 pro 的 1/8。





      總結來看,如果只看發布會,第一印象是:完美,但普通。

      完美在于,GPT-5 優化了作為大模型產品需要考慮的幾乎所有方面:快速、靈活調用、靈活配置、靈活思考、低幻覺率、高安全性、長上下文等。

      普通在于,就發布會展示的案例,其實并不夠讓人眼前一亮。

      寫大學物理演示、金融儀表板等前端應用,這些場景大部分編碼模型都能做的很好了,博客上也就是展示了Dino Run的視覺美化版。連接 Gmail、Google Calendar 等 MCP 能力來提高記憶能力,也是很多大模型的標配了。而且,GPT-5 主要強調的都是實用層面的特性,不像 GPT-4、Claude 3.5 Sonnet 等突破極限的進展更能給人帶來驚喜。

      但知危還是抱著好奇去 Cursor 上試了一下( 現在就能免費在 Agent 模式中用 GPT-5 ),結果發現:真的太完美了!( 至少這一次測評體驗的意義上,甚至知危發現自己不需要做很長時間的測評 )



      參考OpenAI對指令遵循能力的介紹,知危給GPT-5提供了非常詳細的網頁版Excel開發的提示詞:

      請幫我開發一個功能完整的網頁版Excel應用,需要實現以下核心功能模塊:

      第一階段:基礎功能(核心優先級)

      網格渲染系統

      實現1000×1000單元格的虛擬渲染

      優化滾動性能,確保流暢體驗

      橫坐標(A、B、C等)和縱坐標(1、2、3等)需要與單元格精確對齊

      滾動時坐標軸與內容區域保持同步,無偏移

      單元格編輯功能

      雙擊單元格進入編輯狀態,編輯框與原單元格完全重合

      Enter鍵保存內容并向下移動到下一個單元格

      Tab鍵保存內容并向右移動到下一個單元格

      支持空值和默認值的正確處理

      編輯欄應可編輯,實時顯示和修改當前選中單元格的值

      富文本格式工具欄

      實現獨立的格式按鈕,每個按鈕狀態基于當前選中單元格的格式屬性獨立判斷:

      字體大小調整

      加粗、斜體、下劃線、刪除線(按鈕狀態互相獨立)

      文本對齊:左對齊、居中、右對齊

      背景顏色設置

      一鍵清除格式功能

      UI界面要求

      頂部工具欄包含所有格式設置按鈕

      名稱框顯示當前選中單元格坐標(如A1、B2)

      編輯欄顯示并可編輯當前單元格內容

      整體界面美觀,具有現代化設計風格

      第二階段:高級功能(擴展功能)

      行列操作

      點擊行號后,按"="鍵在下方插入新行,按"-"鍵刪除當前行

      點擊列號后,按"="鍵在右側插入新列,按"-"鍵刪除當前列

      刪除后自動重排坐標編號,保持連續性

      添加最小保護機制,避免刪除最后一行或列

      復制粘貼操作

      實現Command/Ctrl+C(復制)、Command/Ctrl+X(剪切)、Command/Ctrl+V(粘貼)快捷鍵

      支持單元格內容和格式的復制粘貼

      支持行列的整體復制粘貼操作

      撤銷恢復系統

      實現Command/Ctrl+Z(撤銷)和Command/Ctrl+Y(恢復)功能

      維護操作歷史棧,限制最大100層以控制內存

      頁面刷新時清空操作棧

      選擇功能

      支持單元格多選(拖拽選擇矩形區域)

      支持整行、整列選擇

      選中狀態的可視化反饋

      第三階段:完善功能(產品化)

      數據導入導出

      支持導出為CSV格式文件

      支持導出為JSON格式文件

      確保導出的文件能在Microsoft Excel中正確打開

      UI美化優化

      添加滾動動畫效果

      優化陰影和漸變效果

      提升整體視覺體驗和交互流暢度

      響應式設計,適配不同屏幕尺寸

      技術要求

      技術棧

      使用HTML、CSS、JavaScript實現,確保:

      代碼結構清晰,模塊化設計

      性能優化,特別是大數據量渲染

      兼容主流瀏覽器

      代碼風格統一,具有良好的可維護性

      關鍵技術點

      虛擬滾動技術處理大量單元格

      事件委托優化性能

      狀態管理確保數據一致性

      內存優化,避免內存泄漏

      錯誤處理

      添加邊界情況處理

      確保操作的原子性

      提供用戶友好的錯誤提示

      開發注意事項

      逐步實現:請按階段順序實現功能,確保每個階段功能穩定后再進入下一階段

      狀態同步:確保UI狀態與數據狀態始終保持一致

      性能考慮:重點優化滾動性能和大數據渲染

      用戶體驗:所有交互操作應提供即時的視覺反饋

      代碼質量:保持代碼的可讀性和可維護性

      請基于以上需求,生成一個功能完整、性能良好、界面美觀的網頁版Excel應用。如果在實現過程中遇到復雜問題,請分步驟詳細說明解決方案。

      Think harder

      結果,對于這個提示詞就有 1000 多字、需求非常細致繁多的需求,GPT-5 跑一次就幫我實現了所有功能,除了背景顏色設置需要重復點一次單元格以及剪切后內容先刪除等小毛病,幾乎可以說一個 bug 都沒有。說 GPT-5 快也不是吹牛,整個過程不到 5 分鐘。



      下圖是導出 .csv 文件后用 Excel 打開的數據,和網頁里的數據是一致的。



      第二輪迭代順利增加了單元格拉伸功能,并且 GPT-5 自己發現第一步只實現了導出文件功能,而沒有實現導入文件的功能,就 “ 自作主張 ” 給我補上了,實測也是正常運行。就一個大槽點,界面審美太一般了。



      一次調用成型,順滑的 debug 體驗,加上超快速度,僅 800 行的最終代碼量,以及低廉的 API 價格,只用一次體驗,知危就感受到了 GPT-5 是如何在所有可能的環節上,節省開發者的金錢、時間和內耗成本。

      或許可以理解為,這種類型的完美或實用性,比于突破現實場景( 而不是基準測試 )的極限,更有意義。

      畢竟大量垂直領域的大模型落地,需要的不是超強的 AI,而是超可靠的 AI,如此才能結合企業自己的行業 knowhow 做出真正有用的 AI 應用。

      最后,再把 GPT-5 的特點詳細匯總一下:

      • 基本的層面包括:快速、便宜、低幻覺率、低欺騙率、高安全性、易于使用、長上下文等。
      • Agentic Coding 側重的包括:指令遵循、意圖識別、工具使用、可解釋性、可編輯性、上下文管理等。

      可以說,OpenAI 是希望把 GPT-5 打造成一個完美的大模型產品,而不是最先進的模型,關注的是如何在實際場景中使用的體驗和價值。

      這一步的實現或許意味著大模型進化第一階段的完成,主要依靠的是全量互聯網公開數據和工程優化。

      當然,大模型都還有相當大的進步空間,畢竟基準測試都遠沒達到 100%,誰好意思說實現了 AGI ?何況多模態數據、垂直領域數據甚至合成數據,都還潛藏巨量智能等待挖掘。

      且看 OpenAI 的各大冤家 Anthropic、谷歌等又將如何 diss 它一把。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      同學會要交8萬''入場費'',我果斷退群,隔天警察告知:昨晚班長沒了

      同學會要交8萬''入場費'',我果斷退群,隔天警察告知:昨晚班長沒了

      懸案解密檔案
      2025-10-31 15:30:25
      別再亂吃了!華人常吃的保健品被曝或“助癌生長”!補得太勤反而害了自己...

      別再亂吃了!華人常吃的保健品被曝或“助癌生長”!補得太勤反而害了自己...

      最英國
      2025-11-05 19:05:18
      秦雯“襲警錄音門”發酵升級!她是三八紅旗手,網傳配偶比較厲害

      秦雯“襲警錄音門”發酵升級!她是三八紅旗手,網傳配偶比較厲害

      火山詩話
      2025-11-04 06:13:25
      歐豪的“獲獎感言”在全網火了,馬思純說過的話,終于有人信了

      歐豪的“獲獎感言”在全網火了,馬思純說過的話,終于有人信了

      小偀說故事
      2025-11-05 07:26:17
      庫珀·弗拉格的殘酷現實正在浮現,獨行俠無法忽視

      庫珀·弗拉格的殘酷現實正在浮現,獨行俠無法忽視

      好火子
      2025-11-06 02:21:46
      兩家冷卻液供應商回應理想MEGA召回事件

      兩家冷卻液供應商回應理想MEGA召回事件

      中國能源網
      2025-11-04 12:54:07
      楊瀚森僅獲D評分!美媒公布25年新秀表現:探花埃奇庫姆A弗拉格B-

      楊瀚森僅獲D評分!美媒公布25年新秀表現:探花埃奇庫姆A弗拉格B-

      鍋子籃球
      2025-11-05 22:37:11
      曼城4-1多特蒙德,賽后評分:不是哈蘭德第一,曼城47號第一

      曼城4-1多特蒙德,賽后評分:不是哈蘭德第一,曼城47號第一

      側身凌空斬
      2025-11-06 06:09:11
      帕金斯稱,只有一支球隊能讓灰熊隊的賈·莫蘭特重回正軌

      帕金斯稱,只有一支球隊能讓灰熊隊的賈·莫蘭特重回正軌

      好火子
      2025-11-06 02:18:03
      亞馬爾:外界一直在說我的腹股溝痛和心情不好,那些全是假的

      亞馬爾:外界一直在說我的腹股溝痛和心情不好,那些全是假的

      懂球帝
      2025-11-06 07:32:16
      “黃牛都要知難而退” !趙露思成都“思念如面”音樂會,0元票當晚售罄,需答題后分數大于80分才能預約

      “黃牛都要知難而退” !趙露思成都“思念如面”音樂會,0元票當晚售罄,需答題后分數大于80分才能預約

      觀威海
      2025-11-05 09:58:04
      淘寶閃購新工服被指像“行走的廣告牌”?需騎手自購?平臺回應

      淘寶閃購新工服被指像“行走的廣告牌”?需騎手自購?平臺回應

      澎湃新聞
      2025-11-05 16:26:46
      內線都快被打爆了,結果快船依然不愿意給首輪秀多些出場時間?

      內線都快被打爆了,結果快船依然不愿意給首輪秀多些出場時間?

      稻谷與小麥
      2025-11-06 02:12:25
      特斯拉撞死突闖國道的野豬,修車費超2萬元、車主全責 交警:野豬不屬于交通參與者

      特斯拉撞死突闖國道的野豬,修車費超2萬元、車主全責 交警:野豬不屬于交通參與者

      紅星新聞
      2025-11-05 16:04:24
      當深圳00后也來抄底:內地客赴港買房,十年砸下8000億

      當深圳00后也來抄底:內地客赴港買房,十年砸下8000億

      南方都市報
      2025-11-05 13:54:46
      美國稱:中國不可怕,可怕的是,中國淘汰4000年的東西他們還在用

      美國稱:中國不可怕,可怕的是,中國淘汰4000年的東西他們還在用

      南宮一二
      2025-11-04 16:14:07
      胡適評價毛主席寫的詞,“沒有一句通的”,那么胡適的水平如何?

      胡適評價毛主席寫的詞,“沒有一句通的”,那么胡適的水平如何?

      芊芊之言
      2025-11-04 00:10:09
      就在今天!11月6日凌晨,跳水界傳來全紅嬋、王偉瑩、陳芋汐消息

      就在今天!11月6日凌晨,跳水界傳來全紅嬋、王偉瑩、陳芋汐消息

      陳意小可愛
      2025-11-06 06:12:38
      北京多家民營油站被要求“去平臺化” 用戶商戶均叫苦

      北京多家民營油站被要求“去平臺化” 用戶商戶均叫苦

      能源雜志官方
      2025-11-05 15:05:11
      特朗普關稅遭美國高院大法官輪番質疑 預測市場勝率跳水大跌

      特朗普關稅遭美國高院大法官輪番質疑 預測市場勝率跳水大跌

      財聯社
      2025-11-06 05:13:04
      2025-11-06 08:44:49
      知危 incentive-icons
      知危
      投資不立危墻之下
      493文章數 1824關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      記者問了歐盟一個“有趣”的問題 然后被解雇了

      頭條要聞

      記者問了歐盟一個“有趣”的問題 然后被解雇了

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      特朗普關稅遭美國高院大法官輪番質疑

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      游戲
      教育
      數碼
      藝術
      軍事航空

      晨報|《胡鬧廚房》改編真人秀 暴雪嘉年華即將開票

      教育要聞

      83歲還在學英語?ta們告訴你堅持的意義。

      數碼要聞

      消息稱華為 WATCH Ultimate 2 手表明日露出,預估 6000~7000 元

      藝術要聞

      張鐵林的書法到底有多神秘?看看這幅作品!

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产亚洲精品第一综合另类无码无遮挡又大又爽又黄的视频 | 亚洲一区二区三区自拍高清| 蜜桃视频一区二区在线观看| 亚洲AV日韩AV激情亚洲| 在线观看中文字幕国产码| 国产精品成人av电影不卡| 人妻少妇精品视频专区| 亚洲va中文字幕无码久久| 亚洲色大成网站www永久一区| 成人拍拍拍无遮挡免费视频| 亚洲综合精品中文字幕| 国产亚洲AV电影院之毛片| 亚洲综合色区另类av| 色婷婷综合久久久久中文字幕| 阳谷县| 少妇又爽又刺激视频| 亚洲暴爽av天天爽日日碰| 无码A级毛片免费视频下载| 日韩av综合免费在线| 国产精品综合一区二区三区 | 桃江县| 国产精品一区二区在线欢| 欧美自拍另类欧美综合图片区| 国产高清一区二区不卡| 国产免费无遮挡吸奶头视频| 国产性一交一乱一伦一色一情| 天天摸天天做天天爽水多| 精品午夜福利在线视在亚洲| 中文字幕成人精品久久不卡| 亚洲中文字幕无码永久在线| 国产精品 亚洲一区二区三区 | 国产精品不卡一区二区三区| 成人av午夜在线观看| 果冻传媒mv免费播放在线观看| 国产欧亚州美日韩综合区| 精品乱码一区二区三四五区| aa性欧美老妇人牲交免费| 在线成人| 内射无套内射国产精品视频| 日日摸夜夜添夜夜添国产三级| 国产果冻豆传媒麻婆精东|