<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      大模型高考數學:最后一題全體"滑鐵盧",看來AI想考清北也難

      0
      分享至



      還記得你高考時被數學最后幾道大題支配的恐懼嗎?今天,知危編輯部想讓各個 AI 大模型也嘗嘗滋味。

      這并不是整活兒,大模型在推理上天天高呼“ 取代程序員 ”、“ 取代人類科學家 ”,那從實際層面,它們真的有那么強嗎?他們能贏得過大學生最巔峰狀態 —— 高考時的狀態嗎?

      知危通過2025 年高考數學全國卷一卷的最后 5 道解答題( 總分 77 分 ),對當前主流大語言模型的數學推理能力進行了系統性評測。

      測試題目涵蓋了統計學、數列、立體幾何、解析幾何和三角函數等多個數學領域,對于考察模型在概率計算、證明推理、空間幾何分析、參數優化等方面的表現,能提供一些線索。

      另外,關于推理模型的有趣特性,也通過答題有所展現。

      本次參與評測的模型包括:Gemini 2.5 Pro Preview、智譜Z1、豆包1.5、Claude 4 Sonnet、Qwen3-235B-A22B、DeepSeek R1、Kimi K1.5、騰訊T1、文心X1、GPT-4o 和 o3 等11 個主流大語言模型。評測采用百分制打分,重點關注計算準確性、邏輯嚴謹性和解題思路的完整性。

      為防止模型解題卡在讀圖這一非核心能力上,知危把所有題目都轉換成了 LaTeX 格式( 一種適用于數學公式的排版格式 )一些帶圖的題目,其實圖片也不是必須的,后面會詳細說明。

      這是知危得到的評測結果概況:

      • 總體表現Gemini 2.5 Pro Preview 以 75 分位居第一智譜 Z1( 67 分 )和豆包 1.5( 62 分 )緊隨其后;
      • 推理特色:DeepSeek R1在思維鏈細節方面表現突出;
      • 普遍短板:最后一道綜合性三角函數題成為各模型的 " 滑鐵盧 ",僅 Gemini 2.5 Pro Preview 給出了相對完整的解答;

      通過對各模型思維鏈的深度分析,本文揭示了不同模型在數學推理方面的獨特特點、常見錯誤模式,以及在面對復雜數學問題時的思維策略差異。

      對了,友情提示一下各位,不喜歡數學的可以只看每道題開頭的結果表格,或是直接拉到文末看總結哦

      第 15 題

      真題:



      LaTeX 格式:

      為研究某疾病與超聲波檢查結果的關系,從做過超聲波檢查的人群中隨機調查了 1000 人,得到如圖中的聯表:

      (1)記超聲波檢查結果不正常者患該疾病的概率為 P,求 P 的值;

      (2)根據小概率值 \alpha =0.001 的獨立性檢驗,分析超聲波檢查結果是否與患該疾病有關。

      附: χ2 =\frac {n(ad-bc)^{2}}{(a+b)(c+d)(a+c)(b+d)}, \frac {p(x=2,k)}{k} =0.821 6.635 10.828

      ( 一個細節:題目要配合表格一起輸入,但 DeepSeek R1 沒有 OCR 或多模態能力,剛好 Qwen3-235B-A22B 在輸出中將表格用文本的形式表示了,所以我們就順道復制到 DeepSeek R1 的輸入之中了。)

      注:我們保留了 LaTeX 公示的表達,看起來抽象,但方便你感興趣的話可以復制測試,以下幾題同理。

      測試結果:



      這道題主要考查的是列聯表分析中的獨立性檢驗和條件概率的計算,屬于高中統計與概率模塊的內容。

      第一小題比較容易,所有模型都答對了。

      第二小題需要套用題目中給出的卡方統計量的公式,只要具備相關概念的知識,也能順利做出來,大部分模型也都答對了。

      除了 Kimi K1.5 和文心 X1,它們都把最后的卡方統計量算錯了,正確值是 χ2 =765.625,而它們計算出來的值是 761.25,雖然不影響最后的結論,但這個錯誤因為過于低級讓人驚訝。

      從思維鏈中追溯,發現 Kimi K1.5 的錯誤是:第一次算出 400 - 140,400 = -139,600,而實際上是 -140,000,最后算出卡方統計量是 760.5,隨后三次因為這個值過大,重新進行了計算,但都算成了 761.25,并接受了這個答案。文心 X1 在執行時直接跳過了深度思考,在解答輸出中也沒有線索,所以錯誤無法追溯。

      很多模型在第一次計算后都會因數值太大而產生質疑,會決定重新計算三次左右,比如豆包 1.5、Qwen3-235B-A22B、智譜 Z1 等。

      還有的模型會再采用通用公式來算,比如 Qwen3-235B-A22B、DeepSeek R1:



      DeepSeek R1 的回答簡直是細節狂魔,不僅思維鏈長度 7000 字之長( 僅次于Kimi K1.5 ),對數值計算做了過多不必要的摳細節,比如把乘法一步一步算給你看中間結果,除法一步一步給你看怎么約分,甚至算到 χ2 = (49/64) × 1000 之后,還在糾結如何把 64 做拆分使得計算更簡便。當然,這不全是缺點,優點會在之后的題目中體現。

      實際上,最難能可貴的是,Claude 4 Sonnet 在結果中提及了對卡方統計值如此之大的合理解釋 —— 患病者中 90% 的人超聲波檢查不正常,而未患病者中只有 2.5% 的人超聲波檢查不正常,兩者差異極其顯著,也能直觀上說明超聲波檢查結果與患該疾病相關性極大。Qwen3-235B-A22B 和智譜 Z1 也并給出了類似的合理解釋。這種能力雖然對做題拿分沒什么幫助,但對開放性研究的數據分析是有意義的。相比之下,騰訊 T1 倒是最為干脆,沒有對卡方統計量很大表示質疑,也沒給出解釋,給出答案就結束了。

      最后,o3 和 Gemini 2.5 Pro Preview 的思維鏈摘要中沒有關于如何任何思考的線索,這是個大槽點。

      本題的評分結果,Kimi K1.5 和文心 X1 各扣 2 分,其它模型滿分。

      第 16 題

      真題:



      LaTeX格式:

      已知數列a_ {n}中, a_ {1}=3, \frac {a_ {n+1}}{n}=\frac {a_ {n}}{n+1}+ \frac {1}{n(n+1)}.

      (1)證明:數列{ na_ {n} }是等差數列;

      (2)給定正整數m,設函數f(x)=a_ {1}x+a_ {2}x^ {2}+\cdots+a_ {m}x^ {m} ,求f'(2).

      ( 注意,第 2 小題因真題信息源的偏差,把 f'(-2) 改為了 f'(2),但無大礙。)

      測試結果:



      這一題幾乎所有模型都完美的做出來了。但通過對思維鏈的分析,還是能看出各自的特點。

      第一小題沒什么好說的。對于第二小題,主要難點在于處理兩個有限級數的值,以下是 o3 給出的,基于數列的通項將 f(x) 和導數展開為一個有限調和級數和一個有限幾何級數。



      GPT-4o 對于較難的有限調和級數部分直接給出了一個求和公式來求解。



      不僅是 GPT-4o,豆包 1.5、Qwen3-235B-A22B、DeepSeek R1、Kimi K1.5、文心 X1、騰訊 T1 都采用了這個公式來計算。

      當然這個公式可能有些超綱,一般高中階段會用錯位相減法這種更巧妙的方法來解。比如,文心X1、騰訊T1除了公式法,也都使用了錯位相減法。

      比如騰訊T1給出的:



      一些模型包括豆包 1.5、Kimi K1.5、DeepSeek R1 都會在計算完成后將一些數值代入進行驗證,這是個很好的習慣。

      Qwen3-235B-A22B 可以自定義預算 token,展現了比較特別的行為。比如達到預算 token 都會立刻停止,但 1024token 預算不能完成推理,2048token 預算能完成推理,但無論是否推理完,都能得到正確答案。

      若推理完成,Qwen3-235B-A22B 會在思維鏈中寫下公式,并在回答中使用。



      如果沒有推理完,則會直接給出套用公式計算之后的結果,卻沒出現公式。



      DeepSeek R1 的整體思維鏈比較復雜,但有其思考的深度。在求解第 2 小題時,DeepSeek R1 甚至把較難的有限調和級數用求導法推導出了公式。







      一開始比較依賴變量推理,后來發現代入底數 2 計算會更加方便,這里耽誤了比較大的時間,Kimi K1.5 也是類似的做法。但 DeepSeek R1 在原函數與導數之間靈活變化的做法值得借鑒。比如幾何級數的和更容易計算,就先計算再求導,調和級數的和更難計算,就先求導變為幾何級數再求和。

      值得關注的一個細節是,文心 X1 在推導中使用了奇怪的記號:S = 12^0 + 22^1 + 32^2 + ... + m2^{m-1},兩個相乘的數字中間沒有乘號,Kimi K1.5 中也出現了相同的記號。相比之下,騰訊 T1 使用的記號倒是很標準:S = 1 * 2^0 + 2 * 2^1 + 3 * 2^2 + … + m2^(m-1)。

      Claude 4 Sonnet 直接給出了解法,沒毛病也沒亮點。最后再吐槽一次,o3、Gemini 2.5 Pro Preview 的思維鏈摘要沒有關于解法的信息。

      第 17 題

      真題:



      LaTeX 格式:

      如圖所示的四棱錐P-ABCD中,PA\bot平面ABCD,BC/\!/AD,AB\bot AD.

      (1)證明:平面PAB\bot平面PAD;

      (2)若PA=AB=\sqrt {2},AD= \sqrt {3}+1,BC=2,P,B,C,D在同一個球面上,設該球面的球心為O.

      (i)證明:O在平面ABCD上;

      (ii)求直線AC與直線PO所成角的余弦值.

      ( 這里再提示一次,由于DeepSeek R1沒有OCR或多模態能力,因此這道題直接以文本形式提供給DeepSeek R1,其它模型因特殊時期暫時無法使用讀圖功能的也是如此處理,因為就算不提供圖片,文字也能完整表達題意。)

      測試結果為:



      這一次,除了 GPT-4o 和文心 X1,其它模型都答對了。

      大部分模型都是采用很常規的解法,比如第一小題引用兩個平面垂直的判定法則來求解,第二小題基于坐標法來求解。

      對于第一小題,GPT-4o 參考的關于兩個平面垂直的判定原則是對的,但用錯了對象,應該以 AB 為推理線索,而不是 PA,證明 AB 垂直于 PAD 上兩條不共線的直線。

      而在求解第 2 小題第一部分,GPT-4o 的這一段推導基本屬于胡說八道:



      后續雖然使用了坐標法來計算 O 的坐標,以及直線 AC 與直線 PO 所成角的余弦值,但都算錯了。

      文心 X1 類似,使用坐標法計算 O 的坐標時也算錯了,自然直線 AC 與直線 PO 所成角的余弦值也會算錯。



      DeepSeek R1 又一次展示了不一樣的思維方式,推理過程習慣一步一步走,而不是把所有方程集合起來解,就顯得很冗長,在數值驗證上也耗費了不少時間。





      第 18 題

      真題:



      LaTeX 格式:

      設橢圓C: \frac{x^{2}}{a^{2}}+\frac{y^{2}}{b^{2}}=1 (a>b>0)的離心率為\frac{2 \sqrt{2}}{3},下頂點為A,右頂點為B,|AB|=\sqrt{10}。

      (1) 求C的方程;

      (2) 已知動點P不在y軸上,點R在射線AP上,且|AP||AR|=3。

      (i) 設點P(m,n),求R的坐標(用m,n表示);

      (ii) 設O為坐標原點,Q是C上的動點,直線OR的斜率是直線OP的斜率的 3 倍,求|PQ|的最大值。

      測試結果:



      這一道題翻車的就多了,而且出錯的方式五花八門。只有 Gemini 2.5 Pro Preview、豆包 1.5、文心 X1、智譜 Z1 全對,其它全部栽在第 2 小題第二部分。

      Gemini 2.5 Pro Preview 抓住了解題的關鍵點:PQ 的最大距離應該等于圓心到橢圓上點的最大距離加上圓的半徑。豆包 1.5 則闡述了這個關鍵點背后更本質的邏輯: | PQ|≤|PO| + |OQ|。意識到這一點之后,通過參數化方法求解 P 的軌跡即圓的圓心到橢圓C的最大值即可。



      在思維鏈部分,豆包 1.5 嘗試過純參數法( 不借助圓心,直接用參數表示 PQ 距離 ),因為過于復雜而放棄。對正確答案有過懷疑和猶豫,但次數不多,最后并沒有找到好的辦法來驗證。

      文心 X1 在 Q 和 P、R 是否有關系這個問題上糾結了很久,并把 P 點的方程重復計算了多遍,在計算出 P 點方程后,要解決 PQ 之間距離時,由于要處理的變量太多而猶豫不前。關鍵點是意識到存在更簡便的方法,比如利用幾何性質或拉格朗日乘數法。用幾何法計算出正確結果后,懷疑了好多次,每次都用同樣的結論說服自己是正確的,但沒有任何信息增量。然后嘗試了拉格朗日乘數法,列出方程后就感覺太復雜直接放棄了,繼續糾結中。最后依靠一些心理暗示停止了思考。



      智譜 Z1 得到了正確答案,一次用 y 做參數化,一次用 cosθ 做參數化,每一次都得到了正確的答案,但每一次驗證都失敗了。通過往前回溯也沒有找到合適的線索,導致猶豫不決,重復提問了自己好幾次。



      接下來看看答錯的模型是怎么做的。GPT-4o 計算點 P 方程時出現錯誤,自然不可能計算出正確的 PQ 值。Claude 4 Sonnet 也是類似的問題。

      此外 GPT-4o 最大化 PQ 的邏輯并不嚴密,在使用代數法發現無法嚴格求解后,直接嘗試了數值試錯法來得出結論。o3 的錯誤更加離譜,一開始誤以為 Q 應該是 P 和橢圓的交點,即便后面意識到 P 和 R 的關系與 Q 無關,也沒有轉換思維。



      Qwen3-235B-A22B 有意識到最大距離應該出現在兩圖形的最遠點之間,通過幾何分析找到不同思路,比如分析圓和橢圓的相對位置和重疊部分,但一直都在參數化和幾何方法之間猶豫不決,最后達到 token 預算( 5120 token ),答案中的思路是對的,但計算出來的最大距離是錯誤的,并且缺乏論據,不知道錯在哪里。



      Kimi K1.5 也是在參數化方法和幾何方法之間猶豫,無法往前推進。參數化太復雜,幾何方法不夠嚴密。最后是通過 y 軸上的 PQ 距離計算,并加上幾個其它 PQ 實例的比較,下結論說 y 軸上的 PQ 是最大距離。但實際上,P 是不能在 y 軸上的。

      騰訊 T1 嘗試了多種參數方法和拉格朗日乘數法、柯西不等式等,因復雜度較高而放棄,然后轉向幾何法。它也找到了解題的關鍵點:點 P 到 Q 的距離可以表示為 |PQ| = |OQ - OP| ≤ |OQ| + |OP|,當且僅當 O, P, Q 共線且 Q 在 OP 的延長線上時取等號,但需要 Q 在橢圓上,所以最大可能的 |PQ| 是 |OP| + 橢圓上離 O 最遠的點在 OP 方向上的距離。

      它還有另一個新奇的思路:以橢圓中心為關鍵點,計算 P 到橢圓中心的距離 + 橢圓在該方向上的半長軸。

      但這些思路都沒有被執行下去,最后走了容易計算 y 軸上的 PQ 值—— 5 + 3√2,雖然 P 不能在 y 軸上,但可以以無限靠近 y 軸的方式存在。

      這個思路也被 DeepSeek R1 繼承了。DeepSeek R1 通過 y 軸上的一個 PQ 距離計算,并加上幾個其它 PQ 實例的比較,得到 y 軸上的 PQ 是最大距離。即便意識到 P 不在 y 軸上,也表示: P 不在 y 軸上,但可無限接近。

      和文心 X1 一樣,DeepSeek R1 也糾結 Q 和 P、R 是否有關系。甚至自己改題目,推測 “ P ” 可能是一個筆誤,應為 “ Q ”,即 “ 直線 OR 的斜率是直線 OQ 的斜率的 3 倍 ”。

      第 19 題

      真題:



      LaTeX 格式:

      (1)求f(x)=5\cos x-\cos5x在[0,\frac {\pi }{4}]的最大值;

      (2)給定\theta\in(0,\pi)和a\in R,證明:存在y \in [a-\theta ,a+\theta ],使得\cos y \leqslant \cos \theta ;

      (3)若存在實數 \varphi ,使得對任意實數x,都有5 \cos x- \cos ( 5x+ \varphi ) \leqslant b,求b的最小值.

      測試結果:



      這一道題太慘烈了,特別對于第 3 小題,幾乎全軍覆沒,只有 Gemini 2.5 Pro Preview 在得到正確答案的同時,也提供了比較令人信服的邏輯,但也還不夠完整。其它模型要么答錯,要么理解錯題意,要么借用第 1 小題的結果投機取巧湊出一個正確答案。

      第 2 小題一般有反例法和反證法兩種,所以答案多樣性比較大,也是容易出錯的。

      Gemini 2.5 Pro Preview 第一題采用常規解法,無需細說。第 2 小題,Gemini 2.5 Pro Preview 通過余弦函數的區間單調性,找到了滿足 cos x>cos θ 的區間:



      然后通過反證法,證明如果假設成立,y 的區間不可能被包含在上述區間內,得出矛盾,從而得證。



      第 3 小題,Gemini 2.5 Pro Preview 使用導數法求駐點,獲得了正確的最小值。







      思路是合理的,但實際上在最后下結論之前,缺乏對 φ 如何影響 x 的駐點有效取值的分析( 在任意的 k 值下 ),結論仍然是不嚴密的。

      但總體而言,Gemini 2.5 Pro Preview給出了最嚴謹的分析過程,甚至知危在網絡參考答案中暫時還沒找到比這個更好的。不過,其推理思維鏈摘要沒有找到特別有用或清晰的線索。

      整體上,GPT-4o 是錯得最離譜的,直接零分。

      GPT-4o 第一小題只計算了端點的值,得到了暫時的最大值,而對于導數的求解,選擇不執行,并給出了很荒唐的理由:解這個方程不容易在解析范圍內做出更大值。



      第2小題GPT-4o強調余弦函數在 [0,π] 上是單調減函數;但把結論基于 a+θ 的取值范圍,并不嚴謹,畢竟這個結論需要在 a 是任意值的情況下成立。



      對第 3 小題的求解,GPT-4o 只是通過三角函數最大值為1的特性,進行數值舉例,找到了一個使得上界比較大的 φ 值,就輕易下了結論。而沒有考慮到,這不是找上界,而是最小上界。需要通過特定的 φ 值,讓這個上界最小。

      豆包 1.5 和騰訊 T1 做對了第 1 小題,做錯了第 2、3 小題。

      豆包 1.5 在第 2 小題通過劃分 3 個區間分別找到反例來求解,但每一句結論要么依賴a的特定取值,要么沒有邏輯嚴謹性。



      第 3 小題,豆包 1.5 結合余弦函數的取值范圍特性,通過數值特例找到了 6 作為最小的極大值。但邏輯不嚴謹,答案也是錯誤的。

      在思維鏈中,豆包 1.5 嘗試了和 Gemini 2.5 Pro Preview 相似的思路。但后續處理把注意力放在了 k 的取值,而不是 φ 的取值上。

      豆包 1.5 一開始對題意的理解還是對的。



      但后面即便注意到比如 φ=0 時,b的最大值是3√3,后續看到 φ= π ,b 為 6 的極大值,還是昏了頭。

      騰訊 T1 解決第 2 小題時,用區間分析得到了奇怪的結論:“ 區間長度為 2θ,當 θ∈(0,π) 時,無法完全包含在 ( ?θ,θ ) 內( 否則長度超過 2θ ),矛盾。” 求解第 3 小題時采用了第 1 小題的極大值結果,但這不嚴謹,因為這個極大值和 φ 沒有關系,并且局限在有限區間內。



      o3 求解第 2 小題使用了比較直觀的反證法,不需要分析區間,不容易出錯。



      智譜 Z1 結合余弦函數特性和區間長度,也采用了不同的反證思路。



      o3 求解第 3 小題時,沒有足夠的邏輯推導,只表示 “ 通過分析( 三角恒等式或數值搜索 )可知 ”,答案雖然正確,但并不嚴謹。類似地,智譜也沒有給出有說服力的過程,就得到了正確答案。

      Claude 4 Sonnet 表示 b 的最小值為 6,通過變分法可以證明,但沒有實際展示如何得到。

      Qwen3-235B-A22B 求解第 2 小題時找到了和 Gemini 2.5 Pro Preview 一樣的邏輯。



      求解第 3 小題時,對題意的理解是正確的。

      考慮了一些復雜的思路:相繼提到了諧波成分抵消、傅里葉級數、切比雪夫多項式、貝塞爾不等式等超綱的方法。感覺行不通后,開始通過數值舉例尋找線索。

      嘗試了 Gemini 2.5 Pro Preview 采用的求導法,但沒有把這條路徑走完。最后的答案是準確的,并嘗試了 φ 的多種取值做對比,通過 “ 無論 φ 如何調整,無法通過相位抵消完全消除高頻項的影響,因此最小的 b 應為原函數的最大值 ” 得出了結果,但這并不嚴謹。



      DeepSeek R1 求解第 2 小題時采用了正確的反證法,思路和 Gemini 2.5 Pro Preview 相同,但補齊了 Gemini 2.5 Pro Preview 得出滿足 cos x>cos θ 的區間的邏輯前提。



      求解第 3 小題時,DeepSeek 也采用了求導分析法。





      抓住了 k 變化對最終結果的影響較小,而更多與 φ 相關。但沒有完全分析完成又放棄了,最后還是通過數值比較增大了信心,得到了正確答案,但過程也不是準確的。

      Kimi K1.5 的解答過于冗長,似乎是把長思考帶入到了解答部分。第 2 小題找到了和Qwen3-235B-A22B、Gemini 2.5 Pro Preview一樣的反證法。第 3 小題沒有用嚴格的分析,而是用 φ 取值的反復比較得出了結論,不能算準確。和Qwen3-235B-A22B一樣先進行了求導解析,但后面把注意力集中在k的取值比較上。

      文心 X1 再次跳過了深度思考,解答中得到了準確答案,但如何得出結論沒有具體過程。

      總結

      好了,我們的 2025 高考數學大題 AI 大亂斗的測試就到此結束了,下面是各個模型的總成績單:



      前三名分別是 Gemini 2.5 Pro Preview、智譜 Z1、豆包 1.5,得到了 75 分、67 分、62 分,后兩者都是在最后一題的最后一部分,才和 Gemini 2.5 Pro Preview 拉開了差距。

      其它模型之間整體相差不大,最后一名是 GPT-4o,這并不奇怪,畢竟它不是推理模型。倒是 o3、Claude 4 Sonnet,作為行業領先者的表現還是挺令人失望的,很多錯誤甚至有點離譜。

      DeepSeek R1 在思維鏈上的特點比較明顯,字數非常多,細節非常豐富,即便只看部分思維鏈,也能給人類帶來不錯的啟發,會采用復雜、冗長的推理過程來解題,甚至采用比較高階的方法,許多模型都會在這種節點下,停滯不前或繞過去, DeepSeek R1 會進行嘗試,即便最后放棄,也能提供不少細節。相比之下,部分模型( 如 o3、Gemini 2.5 Preview )的思維鏈摘要缺乏關鍵推理細節,影響了可解釋性。

      需要特別強調的是,思維鏈長度與準確性并非簡單正相關,過度冗長的推理有時反而影響效率。

      在解題層面,目前主流大模型在求解數學推理還會遇到這些共同挑戰:

      • 復雜參數優化問題( 如第18、19題第2小題ii部分 )對所有模型都構成較大挑戰;
      • 幾何直覺和代數計算的結合是普遍難點( 如第 18 題第 2 小題 ii 部分 );
      • 數值計算精度在長推理題目中成為關鍵因素

      最后,除了解題本身,模型在進行結果檢驗、衡量方法復雜度和自信度、token 預算控制、輸出長度、輸出多樣性等方面如果做的不好,也會很影響可用性,特別是出現大量重復推理、無效推理時,負面體驗是最強的。

      總之,對于這些動輒號稱是 “ 博士水平 ”的各家大模型來說,我們只能說,在中國高考數學面前,你考個 985 沒問題,但你要想考清北,除了 Gemini,其他可能都還得再多練兩年。

      現在,你知道你身邊只靠單純的高考成績考上清北的人有多恐怖了嗎?

      ( 本評測基于2025年6月的模型版本進行,隨著模型的持續更新,相關結論可能會發生變化。)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      知名先秦史研究學者謝維揚逝世,著有《中國早期國家》等

      知名先秦史研究學者謝維揚逝世,著有《中國早期國家》等

      澎湃新聞
      2025-11-06 19:58:26
      你敢信嗎?全世界只有我們和日本自己,還執著地叫著“天皇”!

      你敢信嗎?全世界只有我們和日本自己,還執著地叫著“天皇”!

      南權先生
      2025-11-06 19:35:03
      9500萬人口的東北,去年生了38萬,死亡91萬!情況比想象中更嚴重

      9500萬人口的東北,去年生了38萬,死亡91萬!情況比想象中更嚴重

      狐貍先森講升學規劃
      2025-08-01 18:30:03
      賴清德沒想到,大陸對臺使出最絕的一招:邀請日本自衛隊到中國

      賴清德沒想到,大陸對臺使出最絕的一招:邀請日本自衛隊到中國

      輝輝歷史記
      2025-11-07 06:57:54
      短劇演員紅毯生圖來了,沒了十級濾鏡,誰的顏值扛住了長鏡頭檢驗

      短劇演員紅毯生圖來了,沒了十級濾鏡,誰的顏值扛住了長鏡頭檢驗

      大鐵貓娛樂
      2025-11-06 15:17:27
      不會吃別尬吃!《樹影迷宮》廖凡吃餡餅,讓假吃演員無地自容

      不會吃別尬吃!《樹影迷宮》廖凡吃餡餅,讓假吃演員無地自容

      糊咖娛樂
      2025-11-05 11:33:50
      中國最大盜墓頭目——姚玉忠,生前供出秦始皇陵入口,依舊判死刑

      中國最大盜墓頭目——姚玉忠,生前供出秦始皇陵入口,依舊判死刑

      不八卦掌門人
      2025-11-06 15:50:29
      何小鵬哽咽再辟謠“機器人內藏真人”

      何小鵬哽咽再辟謠“機器人內藏真人”

      新京報
      2025-11-06 21:36:05
      不裝了?面對解放軍武力奪臺,鄭麗文語出驚人,喊出“武力保臺”

      不裝了?面對解放軍武力奪臺,鄭麗文語出驚人,喊出“武力保臺”

      趙釔是個熱血青年
      2025-11-05 17:29:23
      對了!謝謝你,NBA!中國男籃即將世預賽首秀

      對了!謝謝你,NBA!中國男籃即將世預賽首秀

      籃球實戰寶典
      2025-11-06 20:39:30
      女朋友是體育生是什么體驗?網友:第二天下不來床

      女朋友是體育生是什么體驗?網友:第二天下不來床

      帶你感受人間冷暖
      2025-11-06 00:20:05
      這款融合兩種地域風味的零食,憑啥成“頂流”?

      這款融合兩種地域風味的零食,憑啥成“頂流”?

      徐靜波靜說日本
      2025-11-05 08:27:41
      不準踏入中國市場半步?我國強硬下達“逐客令”,三星:放過我們

      不準踏入中國市場半步?我國強硬下達“逐客令”,三星:放過我們

      花花娛界
      2025-11-06 11:10:24
      他問了歐盟一個“有趣”的問題,然后被解雇了......

      他問了歐盟一個“有趣”的問題,然后被解雇了......

      環球時報國際
      2025-11-05 23:25:45
      大勢已去!錄音門事件再升級,向太、李安、黃百鳴的話字字珠璣

      大勢已去!錄音門事件再升級,向太、李安、黃百鳴的話字字珠璣

      阿廢冷眼觀察所
      2025-11-06 11:21:30
      全運乒乓球:16強今天出爐!劉詩雯林高遠晉級,7大世界冠軍出場

      全運乒乓球:16強今天出爐!劉詩雯林高遠晉級,7大世界冠軍出場

      國乒二三事
      2025-11-07 06:57:07
      日本知名歌手酒井法子近照引發粉絲積極反響

      日本知名歌手酒井法子近照引發粉絲積極反響

      隨波蕩漾的漂流瓶
      2025-11-06 19:14:52
      快速補充能量,哈蘭德曬自己賽后吃烤羊排照片

      快速補充能量,哈蘭德曬自己賽后吃烤羊排照片

      懂球帝
      2025-11-06 16:14:25
      哇太漂亮了,俄羅斯頂級女神,五官絕美,完全符合東方的審美

      哇太漂亮了,俄羅斯頂級女神,五官絕美,完全符合東方的審美

      陳意小可愛
      2025-10-11 15:05:05
      王楚欽大可放心,樊振東參加全運會不是來奪冠的,而是另有所圖

      王楚欽大可放心,樊振東參加全運會不是來奪冠的,而是另有所圖

      鴻印百合
      2025-11-06 09:33:23
      2025-11-07 08:32:49
      知危 incentive-icons
      知危
      投資不立危墻之下
      493文章數 1824關注度
      往期回顧 全部

      教育要聞

      忻州:5所學校取消招生資質

      頭條要聞

      "一鍵投誠"APP在臺灣引熱議 臺當局破防

      頭條要聞

      "一鍵投誠"APP在臺灣引熱議 臺當局破防

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      “黑料纏身”的白百何 誰給她的勇氣?

      財經要聞

      南銀法巴加速發展背后:資金饑渴癥待解

      科技要聞

      小鵬機器人里藏真人?何小鵬發一鏡到底視頻

      汽車要聞

      是我眼花了么?怎么大猩猩都來參加新車發布了?

      態度原創

      教育
      時尚
      房產
      手機
      家居

      教育要聞

      假如你11月才備考四六級覺得來不及

      大衣別這么穿,顯黑又顯胖!

      房產要聞

      錨定居住新趨勢!廣佛新世界重構灣區“理想生活投資學”

      手機要聞

      蘋果折疊屏iPhone配置曝光:將首次搭載2400萬屏下攝像頭

      家居要聞

      別樣府院 暢享詩意生活

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 余庆县| 日本欧美大码a在线观看| 久久综合给合久久狠狠狠| 久久久婷婷成人综合激情| 天天躁日日躁狠狠躁中文字幕| 亚洲欧美日韩在线码| 亚洲一区中文字幕第十页| 无码伊人66久久大杳蕉网站谷歌| 最新亚洲av日韩av二区| 色欲AV无码一区二区人妻| 成人午夜av在线播放| 久久国产成人精品av| 下面一进一出好爽视频| 国产成人精品久久一区二区| 午夜欧美日韩在线视频播放| 在线播放深夜精品三级| 国产一区国产精品自拍| 在线 国产 欧美 专区| 张掖市| 蜜臀av日韩精品一区二区| 无套内谢少妇毛片在线| 国产成人精品一区二区三区| 国内视频偷拍久久伊人网| 四虎永久免费高清视频| 国产99久久亚洲综合精品西瓜tv| 亚洲大尺度无码无码专线| 国产黄色三级三级看三级| 免费又黄又爽又猛的毛片| 免费a级毛片无码av| 四虎永久精品免费视频| 成人无码视频97免费| 财经| 熟妇的奶头又大又长奶水视频 | 亚洲AV永久无码一区| 桃花岛亚洲成在人线AV| 夜夜偷天天爽夜夜爱| 国产成AV人片久青草影院| 欧美疯狂xxxxbbbb喷潮| 年日韩激情国产自偷亚洲| 国产对白老熟女正在播放| 亚洲国产欧美在线观看|