智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

          AI基準(zhǔn)戰(zhàn)再起波瀾:OpenAI質(zhì)疑xAI Grok 3測(cè)試結(jié)果真實(shí)性

             發(fā)布時(shí)間:2025-02-23 10:06 作者:江紫萱

          近日,AI領(lǐng)域掀起了一場(chǎng)關(guān)于基準(zhǔn)測(cè)試結(jié)果真實(shí)性的風(fēng)波。爭(zhēng)議的焦點(diǎn)集中在埃隆·馬斯克旗下的xAI公司最新發(fā)布的AI模型Grok 3上。一名OpenAI員工對(duì)xAI公司公布的Grok 3在AIME 2025基準(zhǔn)測(cè)試中的表現(xiàn)提出了質(zhì)疑,認(rèn)為其測(cè)試結(jié)果具有誤導(dǎo)性。

          xAI公司在其官方博客上發(fā)布了一張圖表,展示了Grok 3的兩個(gè)版本——Grok 3 Reasoning Beta和Grok 3 mini Reasoning,在AIME 2025基準(zhǔn)測(cè)試中的卓越表現(xiàn)。盡管AIME作為AI基準(zhǔn)測(cè)試的有效性受到了一些專家的質(zhì)疑,但它仍然被廣泛用于評(píng)估AI模型的數(shù)學(xué)能力。這張圖表顯示,Grok 3的兩個(gè)版本在AIME 2025上的表現(xiàn)超越了OpenAI當(dāng)前最強(qiáng)的可用模型o3-mini-high。

          然而,OpenAI員工迅速作出回應(yīng),在社交媒體平臺(tái)上指出xAI的圖表并未包含o3-mini-high在“cons@64”條件下的得分。“cons@64”即允許模型對(duì)每個(gè)問(wèn)題嘗試64次,并將出現(xiàn)頻率最高的答案作為最終答案,這種方式通常會(huì)顯著提升模型的基準(zhǔn)測(cè)試分?jǐn)?shù)。因此,如果圖表中省略了這一數(shù)據(jù),就可能導(dǎo)致誤解。

          事實(shí)上,在AIME 2025的“@1”條件下(即模型首次嘗試的得分),Grok 3 Reasoning Beta和Grok 3 mini Reasoning的得分均低于o3-mini-high。Grok 3 Reasoning Beta的表現(xiàn)也略遜于OpenAI的o1模型在“中等計(jì)算”設(shè)置下的得分。盡管如此,xAI仍堅(jiān)持宣傳Grok 3為“世界上最聰明的AI”。

          面對(duì)質(zhì)疑,xAI的聯(lián)合創(chuàng)始人伊戈?duì)枴ぐ筒际步鹪谏缃幻襟w上進(jìn)行了辯護(hù),他指出OpenAI過(guò)去也曾發(fā)布過(guò)類似的具有誤導(dǎo)性的基準(zhǔn)測(cè)試圖表,盡管這些圖表是用于比較OpenAI自身模型的表現(xiàn)。這一回應(yīng)并未平息爭(zhēng)議,反而進(jìn)一步加劇了雙方的對(duì)立。

          在這場(chǎng)爭(zhēng)議中,一位中立的第三方重新繪制了一張更為準(zhǔn)確的圖表,揭示了雙方模型在AIME 2025基準(zhǔn)測(cè)試中的真實(shí)表現(xiàn)。這張圖表的出現(xiàn),為公眾提供了一個(gè)更為客觀、全面的視角來(lái)審視這場(chǎng)風(fēng)波。

          然而,這場(chǎng)風(fēng)波也暴露出AI基準(zhǔn)測(cè)試在傳達(dá)模型局限性和優(yōu)勢(shì)方面的不足。AI研究員內(nèi)森·蘭伯特在一篇文章中指出,或許最重要的指標(biāo)仍然未知:每個(gè)模型達(dá)到最佳分?jǐn)?shù)所需的計(jì)算(和金錢)成本。這一觀點(diǎn)引發(fā)了業(yè)界的廣泛共鳴,也讓人們開(kāi)始重新審視AI基準(zhǔn)測(cè)試的意義和價(jià)值。

           
           
          更多>同類內(nèi)容
          全站最新
          熱門內(nèi)容
          本欄最新
           
          智快科技微信賬號(hào)
          微信群

          微信掃一掃
          加微信拉群
          電動(dòng)汽車群
          科技數(shù)碼群

          日本精品久久久久中文字幕8| 精品无码人妻一区二区三区不卡| 亚洲精品天堂在线观看| 久久精品夜色国产亚洲av| 久久国产香蕉一区精品| 伊在人亚洲香蕉精品区麻豆| 日韩GAY小鲜肉啪啪18禁| 国产福利一区二区精品秒拍| 蜜臀91精品国产免费观看| 婷婷射精av这里只有精品| 2018国产精华国产精品| 国产成人精品免费视频动漫| 久久精品无码一区二区WWW| 精品性影院一区二区三区内射 | 国产亚洲精品福利在线无卡一| 国产精品爽爽ⅴa在线观看| 美女bbbb精品视频| 日韩美一区二区三区| 日韩精品系列产品| 日韩电影免费在线观看| 久久综合日韩亚洲精品色| 中文字幕日韩精品在线| 国产日韩一区二区三免费高清| 国产在视频线精品视频| 国产在线精品美女观看| 国产大片91精品免费看3| 日韩久久久久中文字幕人妻| 日韩电影手机在线观看| 国产精品亚洲w码日韩中文| 中文字幕日韩哦哦哦| 日韩乱码人妻无码中文字幕| 日韩精品无码区免费专区| 国产精品日韩专区| 午夜精品一区二区三区在线视 | 日韩人妻无码精品久久久不卡| 中文字幕日韩在线观看| 日韩毛片免费无码无毒视频观看 | 田中瞳中文字幕久久精品| 国产免费阿v精品视频网址| 中文字幕一区二区三区日韩精品| 国产免费久久精品丫丫|