[筆記] The Illusion of Thinking

https://www.arxiv.org/pdf/2506.06941 Apple 在 2025 6月份 發布的 paper 主要探討當前 LLM 當中所謂的 Resaoning Model (像是 claude-3.7-sonnet-thinking 跟 DeepSeek-R1 ) 是否真的具有 思考 (thinking) 能力? 評測方法最直觀的思路就是舉一反三,做泛化能力的測試: 如果 LLM 在解謎遊戲中,會解困難較低的題目,那麼,不改變解謎遊戲規則,只是單純增加難度的話,應該可以依循同樣的思路下去順利解掉,只需要增加運算時間跟運算長度即可。 但如果當遊戲困難度提升後,LLM 卻出現了停止思考,或是完全解不出來的現象,那就可以合理懷疑,LLM 可能不是透過真正的思考過程來解謎,而是基於過往訓練時有看過的解法來解。 以上這是本篇快速的重點 Abstract KEY: 「數據污染(data contamination)是傳統 benchmark 面臨的一大問題,訓練資料可能早已涵蓋考題範例」 使用可控的 Puzzle 問題依照複雜度分類做測試,可以避免受到數據污染的影響: 可控制任務難度可分成低複雜度問題,中複雜度問題,高複雜度問題 現在的 Large Reasoning Model (LRM) 到底有沒有真實的 reasoning (或是所謂的 thinking) 能力還是一個問號 LRM 之所以看起來有 thinking 能力,可能僅是因為透過 reasoning 的 data 訓練做出類似 reasoning 的表現型而不是像人類那樣具有泛化能力! 「模型在面對更高複雜度時,出現推理中斷或完全失敗的現象,就值得懷疑其是否真具備泛化的推理能力」 比較 thinking v.s non-thinking LLM 在數學考試上的表現 上圖比較了 thinking v.s non-thinking 兩種模型 在 MATH-500 (大概是小學數學程度) 以及 AIME24 與 AIME25 (高中奧林匹克) 的表現 所謂的 thinking model 就是訓練模型有 reasoning 能力的 claude-3.7-sonnet-thinking 跟 DeepSeek-R1 non...