<ul id="eumos"></ul>

<blockquote id="eumos"></blockquote>

<del id="eumos"></del>

站內搜索 | 手機版

智快網 - 新科技與新能源行業網絡媒體

當前位置：智快網 > AI+ > 正文內容

OpenAI o3模型實測分數引爭議，透明度與測試標準成焦點

發布時間：2025-04-21 08:09 來源：ITBEAR 作者：楊凌霄

近期，關于OpenAI的o3人工智能模型在基準測試上的表現引發了廣泛關注與討論。爭議的核心在于，OpenAI首次發布o3模型時公布的測試結果與外界第三方機構的測試結果存在顯著差異。

去年12月，OpenAI自豪地宣布，其o3模型在極具難度的FrontierMath數學問題集上取得了突破性成績，正確率超過四分之一，遠超其他競爭對手。OpenAI首席研究官Mark Chen在直播中強調，這一成績是在內部激進測試條件下，使用資源更為強大的o3模型版本所得出的。

然而，事情并未如此簡單。負責FrontierMath的Epoch研究所隨后公布的獨立基準測試結果顯示，公開發布的o3模型得分僅為約10%，遠低于OpenAI宣稱的分數。這一發現立即引發了外界對OpenAI透明度和測試實踐的質疑。

值得注意的是，OpenAI在12月公布的測試結果中確實包含了一個與Epoch測試結果相符的較低分數。Epoch在報告中指出，測試設置的差異、評估使用的FrontierMath版本更新，以及可能的計算資源和框架不同，都可能是導致結果差異的原因。

ARC Prize基金會也在X平臺上發布消息，進一步證實了Epoch的報告。ARC Prize指出，公開發布的o3模型是一個針對聊天和產品使用進行了調整的不同版本，且所有發布的o3計算層級都比預發布版本要小。這意味著，盡管o3模型在內部測試中取得了高分，但公開發布的版本在性能上有所妥協。

盡管如此，OpenAI并未因此止步。該公司后續推出的o3-mini-high和o4-mini模型在FrontierMath上的表現已經超越了最初的o3模型。同時，OpenAI還計劃在未來幾周內推出更強大的o3版本——o3-pro。

然而，這一系列事件再次凸顯了人工智能基準測試結果的復雜性和不確定性。尤其是當這些結果來自有產品需要銷售的公司時，外界對其真實性和可靠性的質疑聲往往會更加響亮。隨著人工智能行業的競爭加劇，各供應商紛紛急于推出新模型以吸引眼球和市場份額，基準測試“爭議”正變得越來越普遍。

事實上，類似的爭議并非個例。今年1月，Epoch因在OpenAI宣布o3之后才披露其從OpenAI獲得的資金支持而受到批評。許多為FrontierMath做出貢獻的學者直到公開時才知道OpenAI的參與。而最近，埃隆·馬斯克的xAI也被指控為其最新的人工智能模型Grok 3發布了誤導性的基準測試圖表。就在本月，meta也承認其宣傳的基準測試分數所基于的模型版本與提供給開發者的版本不一致。

更多>同類內容

蘋果經典產品Apple Watch Series 1正式加入淘汰名單

08-08

REDMI Turbo 5系列爆料：或配8500mAh大電池，K90系列影像升級

08-08

華為Mate XTs對決iPhone17：折疊與直板巔峰之戰，誰將引領潮流？

08-08

iPhone 17系列官方硅膠保護殼曝光：液態玻璃版與常規版同步亮相

08-07

蘋果iPhone 17系列發布會或將9月9日亮相，多款新品或同步推出

08-06

微軟計劃分階段開源Windows 11用戶界面框架WinUI

08-06

小米汽車磁吸按鍵融入米家生態，家居車內一鍵智控新體驗

08-06

蘋果支持應用內測聊天機器人助手，iPhone用戶搶先體驗

08-06

華為CANN全面開源，攜手業界共建昇騰AI生態，直面英偉達挑戰

08-06

ChatGPT周活躍用戶突破7億大關，GPT-5即將震撼登場引領AI新篇章

08-05

聯發科天璣9500 GPU能效大飛躍，性能光追雙提升引領旗艦新風尚

08-05

2025 ChinaJoy：高通驍龍攜百款終端震撼登場，全面展現強大性能

08-05

iOS 18.6續航實測：iPhone 15系列續航提升明顯，值得升級

08-04

榮耀X70沖進手機周銷量前三，緊追蘋果新款iPhone

08-04

三星9100 PRO 8TB固態硬盤CJ首秀，電競存儲新標桿震撼登場

08-04

點擊查看更多 +

全站最新

2025年底新款Apple TV 4K將登場：性能大幅提升，或調整價格策略

2025年底新款Apple TV 4K將登場：性能大幅提升，或調整價格策略

蘋果大動作！概念股集體飆升，多只產業鏈股票漲幅超5%

蘋果大動作！概念股集體飆升，多只產業鏈股票漲幅超5%

蘋果經典產品Apple Watch Series 1正式加入淘汰名單

蘋果經典產品Apple Watch Series 1正式加入淘汰名單

阿里發布4B小模型Qwen3系列：性能超GPT-4.1-nano，端側部署更友好

阿里發布4B小模型Qwen3系列：性能超GPT-4.1-nano，端側部署更友好

蘋果自研Wi-Fi藍牙芯片，芯片版圖擴張，生態掌控力再升級

蘋果自研Wi-Fi藍牙芯片，芯片版圖擴張，生態掌控力再升級

優艾智合發布人形機器人凌樞，全球首創新“一腦多態”架構亮相合肥

優艾智合發布人形機器人凌樞，全球首創新“一腦多態”架構亮相合肥

REDMI Turbo 5系列爆料：或配8500mAh大電池，K90系列影像升級

REDMI Turbo 5系列爆料：或配8500mAh大電池，K90系列影像升級

榮耀MagicOS率先支持鴻蒙換機克隆，推動全品牌數據無縫遷移

榮耀MagicOS率先支持鴻蒙換機克隆，推動全品牌數據無縫遷移

熱門內容

本欄最新

蘋果經典產品Apple Watch Series 1正式加入淘汰名單

蘋果經典產品Apple Watch Series 1正式加入淘汰名單

REDMI Turbo 5系列爆料：或配8500mAh大電池，K90系列影像升級

REDMI Turbo 5系列爆料：或配8500mAh大電池，K90系列影像升級

華為Mate XTs對決iPhone17：折疊與直板巔峰之戰，誰將引領潮流？

華為Mate XTs對決iPhone17：折疊與直板巔峰之戰，誰將引領潮流？

iPhone 17系列官方硅膠保護殼曝光：液態玻璃版與常規版同步亮相

iPhone 17系列官方硅膠保護殼曝光：液態玻璃版與常規版同步亮相

蘋果iPhone 17系列發布會或將9月9日亮相，多款新品或同步推出

蘋果iPhone 17系列發布會或將9月9日亮相，多款新品或同步推出

微軟計劃分階段開源Windows 11用戶界面框架WinUI

微軟計劃分階段開源Windows 11用戶界面框架WinUI

小米汽車磁吸按鍵融入米家生態，家居車內一鍵智控新體驗

小米汽車磁吸按鍵融入米家生態，家居車內一鍵智控新體驗

蘋果支持應用內測聊天機器人助手，iPhone用戶搶先體驗

蘋果支持應用內測聊天機器人助手，iPhone用戶搶先體驗

智快實驗室評測約稿合作微信：netspread（注明:智快科技）簡體繁體根據客戶端智慧切換，如顯示有問題，請點擊頁面右上角的簡繁切換功能！
Copyright ? 2016-2021 zhikuai.com All rights reserved. 魯ICP備20033456號

微信群

微信掃一掃
加微信拉群
電動汽車群
科技數碼群

精品国产一区二区三区香蕉事| 精品国产一二三产品价格| 亚洲欧洲久久久精品| 日韩在线一区二区三区免费视频| 亚洲国产成人久久精品软件| 久久99久国产麻精品66| 精品一区二区三区免费毛片爱| 久热中文字幕在线精品首页| 中文字幕在线亚洲精品| 久久精品国产WWW456C0M| 亚洲电影日韩精品| 日韩乱码中文字幕视频| 日韩免费视频一区二区| 国产成人精品一区二三区| 精品久久精品久久| 国内揄拍国内精品视频| 人妻少妇精品久久久久久| 99久久综合国产精品免费| 亚洲精品综合在线影院| 精品女同一区二区三区免费站| 亚洲精品456在线播放| 久久久久亚洲精品日久生情| 久久99精品久久久久子伦| 91精品综合久久久久久五月天| 精品三级AV无码一区| 精品人妻中文av一区二区三区| 久久99精品久久久久久久久久 | 久久久久亚洲精品日久生情| 久久精品国产亚洲AV电影| 99视频在线精品免费| 久久精品亚洲一区二区三区浴池 | 国产精品嫩草影院在线播放 | 精品国产福利第一区二区三区 | 精品国产一区二区二三区在线观看 | 日本精品αv中文字幕| 精品国产免费观看一区| 国产精品国产免费无码专区不卡| 国产精品亚洲精品日韩动图| 日韩亚洲国产二区| 精品国产日韩亚洲一区在线| 亚洲第一区精品观看|

<strike id="2y2ee"><rt id="2y2ee"></rt></strike>

<fieldset id="2y2ee"><menu id="2y2ee"></menu></fieldset>