智快網 - 新科技與新能源行業網絡媒體

          蘋果AI研究引爭議:LRM推理極限還是評估方法有誤?

             發布時間:2025-06-17 05:57 作者:馮璃月

          近期,科技界圍繞蘋果公司一篇關于人工智能的論文展開了激烈討論。這篇題為《思維的錯覺》的論文,由蘋果公司于6月6日發布,迅速引起了專家們的關注與爭議。

          論文中,蘋果公司提出一個核心觀點:即便是目前最頂尖的大型推理模型(LRMs),在面對復雜任務時也會遭遇崩潰。然而,這一結論隨即遭到了Open Philanthropy研究員Alex Lawsen的有力反駁。Lawsen認為,蘋果的結論更多地反映了實驗設計的瑕疵,而非模型推理能力的固有缺陷。

          爭議的核心聚焦于蘋果論文中的一個具體案例:即便是最先進的大型推理模型,在處理如漢諾塔問題這樣的復雜遞歸算法任務時,也會徹底失敗。漢諾塔問題是一個經典問題,要求將一系列大小不同的圓盤從一個柱子移動到另一個柱子,且需遵循特定規則。

          針對這一觀點,Alex Lawsen撰寫了一篇題為《思維錯覺的錯覺》的反駁文章。他指出,蘋果的研究混淆了輸出限制和評估設置的問題,從而得出了誤導性的結論。Lawsen詳細列舉了三大問題來挑戰蘋果的結論。

          首先,Lawsen強調蘋果忽略了模型的Token預算限制。在處理超過8個圓盤的漢諾塔問題時,一些模型如Anthropic的Claude Opus,已接近其輸出極限,甚至因節省Token而停止輸出。其次,蘋果的過河測試中包含了一些無解謎題,模型因拒絕解答而被判定為失敗,這顯然是不公平的。最后,蘋果的自動化評估腳本過于僵化,僅將完整步驟列表視為成功標準,未能區分推理失敗與輸出截斷,導致部分策略性輸出被誤判。

          為了證明自己的觀點,Lawsen重新設計了漢諾塔測試,要求模型生成遞歸Lua函數來打印解法,而非逐一列出步驟。結果令人震驚:Claude、Gemini和OpenAI的o3模型均能正確生成15個圓盤問題的算法解法,遠超蘋果報告中“零成功”的復雜性界限。

          Lawsen還指出,在去除人為輸出限制后,LRMs展現出了處理高復雜任務的推理能力,至少在算法生成層面是如此。這表明,問題可能并不在于模型本身,而在于評估方式。這一發現無疑為人工智能領域帶來了新的思考和啟示。

          為了更直觀地展示其觀點,Lawsen還提供了其他測試結果的對比圖,進一步證明了其論點的合理性。

          此次爭議不僅揭示了人工智能研究中的復雜性和挑戰,也再次強調了科學評估方法的重要性。隨著人工智能技術的不斷發展,如何更準確地評估模型的推理能力,將成為未來研究的重要方向。

           
           
          更多>同類內容
          全站最新
          熱門內容
          本欄最新
           
          智快科技微信賬號
          微信群

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數碼群

          日韩国产成人资源精品视频| 青青青国产精品国产精品美女 | 国产精品国产三级国产普通话| 亚洲精品无码AV中文字幕电影网站 | 亚洲精品免费网站| 窝窝午夜色视频国产精品东北 | 亚洲精品在线视频| 国产三级精品三级在线专区| 亚洲AV永久无码精品一区二区国产| 一区二区三区日韩| 国产亚洲精品成人久久网站| 精品国产系列在线观看| 人妻少妇看A偷人无码精品视频| 99久久人妻无码精品系列| 91精品视频观看| 麻豆一区二区三区精品视频| 久久精品国产亚洲77777| 久久99久久99精品| 久久亚洲国产精品| 久久久这里有精品999| 久久精品女人毛片国产| 久久精品国产99国产电影网| 久久成人国产精品二三区| 国内精品久久久久久99蜜桃| 亚洲精品无码鲁网中文电影| 日韩午夜在线视频不卡片| 日韩精品一卡2卡3卡4卡新区乱码| 亚洲国产日韩精品| 一区国产传媒国产精品| 国产乱码精品一区二区三区中| 91精品国产91久久| 久久国语露脸国产精品电影| 国产精品久久久久天天影视| 国产精品三级在线| 国产99久久久国产精品小说| 四虎国产精品永久在线无码 | 国产在线观看91精品一区| 国产精品免费看久久久久| 国产精品亚洲色图| 国产日韩高清一区二区三区| 精品无码日韩一区二区三区不卡|