智快網 - 新科技與新能源行業網絡媒體

          AI推理模型受熱捧,基準測試費用為何水漲船高?

             發布時間:2025-04-13 11:15 作者:陸辰風

          隨著人工智能技術日新月異的發展,推理AI模型逐漸成為了科研領域的熱門焦點。這類模型能夠模擬人類的思考過程,尤其在物理學等專業領域,展現出了超越非推理模型的卓越能力。然而,高昂的測試成本卻成為了驗證這些模型性能的一大障礙。

          據第三方AI測試機構“人工智能分析”提供的數據,評估不同推理模型的費用差異顯著。以OpenAI的o1推理模型為例,在七個主流的AI基準測試中的評估費用高達2767.05美元,折合人民幣約20191元。相比之下,Anthropic的Claude 3.7 Sonnet混合推理模型的評估費用為1485.35美元,折合人民幣約10839元。而OpenAI的o3-mini-high模型評估則僅需344.59美元,折合人民幣約2514元。盡管存在費用較低的模型,如OpenAI的o1-mini評估費用僅為141.22美元,折合人民幣約1030元,但整體來看,推理模型的測試成本依然偏高。

          “人工智能分析”機構已投入約5200美元,折合人民幣約37945元,用于評估十幾種推理模型,這一投入幾乎是非推理模型評估費用2400美元的兩倍。OpenAI在2024年5月發布的非推理GPT-4o模型評估成本僅為108.85美元,而Claude 3.6 Sonnet的評估成本更是低至81.41美元。該機構的聯合創始人喬治·卡梅倫表示,隨著推理模型的開發日益增多,測試預算也將相應增加。

          AI初創公司“通用推理”的首席執行官羅斯·泰勒也面臨著測試成本上升的挑戰。他透露,為評估Claude 3.7 Sonnet,使用了約3700個獨特的提示詞,費用高達580美元。泰勒估計,僅對MMLU Pro進行一次完整測試的成本就可能超過1800美元。他擔憂地指出,隨著資源投入的差異,學者可能無法復制實驗室的報告結果。

          推理模型測試成本高昂的主要原因在于其生成的token數量龐大。Token是原始文本的片段,如將單詞“fantastic”拆分為多個音節。據“人工智能分析”稱,在基準測試中,OpenAI的o1模型生成了超過4400萬個token,是GPT-4o生成量的八倍。由于大多數AI公司按token收費,因此成本迅速累積。

          現代基準測試包含復雜、多步驟任務的問題,導致模型生成大量token。Epoch AI的高級研究員讓-斯坦尼斯拉斯·德內恩指出,盡管每個基準測試的問題數量總體減少,但問題本身更加復雜,旨在評估模型執行現實世界任務的能力,如編寫和執行代碼、瀏覽互聯網等。最昂貴的模型每百萬輸出token的成本也在不斷增加。例如,Anthropic發布的Claude 3 Opus模型每百萬輸出token的成本為75美元,而OpenAI的GPT-4.5和o1-pro模型的成本則分別為150美元和600美元。

          德內恩表示,盡管隨著技術進步,模型的性能提升且成本有所下降,但評估最大最好的模型仍需支付高昂費用。部分AI實驗室,包括OpenAI,為測試目的向基準測試組織提供免費或補貼的模型訪問權限,但一些專家擔憂這可能影響測試結果的公正性。

           
           
          更多>同類內容
          全站最新
          熱門內容
          本欄最新
           
          智快科技微信賬號
          微信群

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數碼群

          精品无码久久久久久久久| 99精品国产一区二区三区不卡| 色妞ww精品视频7777| 国产成人亚洲精品蜜芽影院| 2021国产精品一区二区在线| 99久久精品影院老鸭窝| 亚洲日韩在线视频| 久久精品国产亚洲AV麻豆~| 日韩经典午夜福利发布| mm1313亚洲国产精品无码试看| 99re热这里只有精品视频| 久久综合精品视频| 国产免费阿v精品视频网址| 丰满日韩放荡少妇无码视频| 久久99精品久久久久久园产越南| 国产精品无码免费专区午夜| 国产精品午夜无码AV天美传媒| 亚洲中文字幕无码久久精品1| 香蕉精品高清在线观看视频| 国产香蕉一区二区精品视频| 午夜DY888国产精品影院| 精品无码av无码专区| 亚洲av日韩av高潮潮喷无码| 日韩高清成人毛片不卡| 国产精品jvid在线观看| 国产精品极品美女自在线观看| 精品剧情v国产在线麻豆| 日韩精品中文字幕在线观看| 2021国产精品露脸在线| 久久精品午夜一区二区福利| 久久精品九九亚洲精品| 91久久精品国产免费直播| 亚洲欧洲精品视频在线观看| 精品国精品无码自拍自在线| 国产成人精品亚洲日本在线| 99久久精品午夜一区二区 | 国产私拍福利精品视频推出| 精品国产乱码一区二区三区| 在线日产精品一区| 亚洲日韩精品国产3区| 国产精品欧美成人|