智快網 - 新科技與新能源行業網絡媒體

          AI評測新招:讓AI在《我的世界》中比拼建筑創意

             發布時間:2025-03-22 16:24 作者:鐘景軒

          在探索人工智能(AI)能力邊界的過程中,傳統的基準測試方法正面臨挑戰。為了更全面、直觀地評估AI模型的能力,開發者們正轉向一些非傳統途徑,其中,《我的世界》這款沙盒建造游戲成為了備受矚目的測試平臺。

          據TechCrunch報道,一位名叫阿迪·辛格的高三學生,憑借對AI評測的獨到見解,創建了名為Minecraft Benchmark(簡稱MC-Bench)的網站。該網站利用《我的世界》作為競技場,讓AI模型在相同的提示下生成建筑作品,并通過用戶投票的方式評選出優秀作品。投票結束后,才會揭曉每幅作品的創作者——即哪款AI模型。

          辛格表示,選擇《我的世界》并非因為其游戲性,而是其廣泛的知名度和獨特的方塊風格。這種風格使得即便是非玩家也能輕松分辨出哪個方塊狀的建筑更加逼真。“《我的世界》為我們提供了一個直觀的窗口,讓我們能夠清晰地看到AI發展的進步。大家對這款游戲的視覺風格非常熟悉,這使得評估過程更加直接和有效。”

          目前,MC-Bench網站已經吸引了8名志愿貢獻者的加入。Anthropic、谷歌、OpenAI和阿里巴巴等科技巨頭為該項目提供了寶貴的AI計算資源支持,盡管他們并未直接參與網站的開發工作。

          辛格進一步解釋說,MC-Bench目前的測試還處于基礎階段,主要用于觀察AI從GPT-3時代到現在的進步。然而,他展望了未來可能的拓展方向:“我們或許可以將測試擴展到更復雜的目標導向任務和長期規劃能力評估。游戲作為一種測試平臺,具有安全性和可控性的優勢,是評估AI智能體推理能力的理想選擇。”

          從嚴格意義上講,MC-Bench屬于編程基準測試的一種變體,因為AI模型需要編寫代碼來生成建筑,如“霜雪人”或“熱帶風情的海濱小屋”等。這種測試方式相較于傳統的代碼分析更具直觀性,因為大多數用戶更容易通過作品本身來評判AI的表現。

          盡管關于這些測試結果是否能真正反映AI的實際應用價值仍存在爭議,但辛格認為這些數據仍然具有重要的參考價值。“MC-Bench的排行榜與我在實際使用中的體驗高度一致,這在許多傳統的文本基準測試中并不常見。因此,我相信它能夠幫助AI開發者判斷自己是否正在朝著正確的方向前進。”

           
           
          更多>同類內容
          全站最新
          熱門內容
          本欄最新
           
          智快科技微信賬號
          微信群

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數碼群

          国产精品久久久久影院嫩草| 日韩精品无码一区二区三区免费| 国产精品日韩专区| 一本色道久久综合亚洲精品蜜桃冫| 91久久精品午夜一区二区| 国产亚洲精品a在线无码| 久草热久草热线频97精品| 夜夜爽一区二区三区精品| 国产 日韩 中文字幕 制服| 动漫精品一区二区三区3d| 毛片亚洲AV无码精品国产午夜| 精品国产福利久久久| 久久99精品国产99久久6| 亚洲精品国产精品乱码不卞| 精品一区精品二区| 日韩在线观看高清视频| 国产精品V亚洲精品V日韩精品 | 97久久精品国产精品青草| 国产高清在线精品一本大道国产| 色妞www精品视频免费看| 亚洲日韩精品无码专区| 日韩精品无码中文字幕一区二区 | 无码国内精品久久人妻麻豆按摩 | 日韩A∨精品日韩在线观看| 国产精品αv在线观看| 国产精品WWW夜色视频| 最新国产精品自拍| 国产精品黄大片在线播放| 国产精品久久久久影院免费 | 国产综合成人色产三级高清在线精品发布| 精品国产午夜肉伦伦影院| 久久久这里有精品中文字幕| 中文字幕日韩专区精品系列| 91精品国产高清久久久久久io| 成人区精品一区二区不卡 | 99精品一区二区免费视频| 999任你躁在线精品免费不卡 | 日韩精品一卡2卡3卡4卡新区乱码| 日韩中文字幕一区| 一本之道av不卡精品| 国产伦精品一区二区三区视频金莲|