站內(nèi)搜索 | 手機版

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡媒體

當前位置：智快網(wǎng) > 汽車 > 正文內(nèi)容

OpenAI發(fā)布醫(yī)療大模型測試集HealthBench，性能提升顯著

發(fā)布時間：2025-05-13 09:24 來源：ITBEAR 作者：馮璃月

OpenAI近日在醫(yī)療健康領域邁出了重要一步，宣布推出并開源了專為醫(yī)療大模型設計的測試評估集——HealthBench。這一舉措旨在更精確地評估AI系統(tǒng)在醫(yī)療健康領域的表現(xiàn)。

與以往的測試集相比，HealthBench在多個維度上實現(xiàn)了突破。其核心測試對話集由262名醫(yī)生精心打造，他們來自60個國家和地區(qū)的26個專業(yè)，確保了測試內(nèi)容的難度、真實性和豐富性。這些醫(yī)生的專業(yè)背景使得HealthBench能夠覆蓋廣泛的健康場景和行為維度。

具體而言，HealthBench包含了48562個獨特的醫(yī)生評分標準，這些標準不僅涵蓋了緊急情況和全球健康等多個健康背景，還涉及準確性、遵循指示和溝通等多個行為維度。這種開放式評估方式，使得HealthBench能夠更全面地反映AI系統(tǒng)在醫(yī)療場景中的實際應用能力。

HealthBench在測試方式上也有所創(chuàng)新。它采用了多輪對話測試，而非簡單的答題或選擇題模式。這種測試方式更貼近真實醫(yī)療場景中的對話交流，有助于更準確地評估AI系統(tǒng)的理解和應對能力。

測試數(shù)據(jù)顯示，HealthBench的推出對AI系統(tǒng)在醫(yī)療保健領域的表現(xiàn)產(chǎn)生了積極影響。例如，GPT-3.5Turbo在HealthBench上的得分從16%提升至GPT-4o的32%，而更先進的o3模型則達到了60%的得分，整體性能有了顯著提升。尤其是小型模型方面，GPT-4.1nano不僅在性能上超越了GPT-4o，而且在成本上降低了25倍，展現(xiàn)了巨大的潛力和價值。

更多>同類內(nèi)容

中國安全專家助力蘋果修復自研5G基帶漏洞，保障網(wǎng)絡安全

05-13

榮耀Magic V5折疊屏新高度，驍龍8 Elite加持，厚度或低于9mm刷新記錄！

05-13

蘋果服務業(yè)務未來何去何從？摩根士丹利揭示兩種極端可能性

05-13

華為乾崑智駕5月升級：智能輔助駕駛新增鳴笛、反饋與遠光燈自適應功能

05-12

LockBit黑客組織遭同行“黑吃黑”，內(nèi)部資料大曝光！

05-12

阿聯(lián)酋國立學校低年級將普及AI教育，著重培養(yǎng)學生AI判斷力

05-12

騰訊混元T1-Vision新升級，元寶功能讓圖片理解更“懂你”

05-12

《GTA 4》將登陸新主機？R星移植版或年內(nèi)發(fā)布

05-12

國產(chǎn)AG600大型水陸兩棲飛機首架批產(chǎn)機成功總裝下線

05-12

三星Galaxy Z Flip FE跑分曝光：搭載Exynos 2400，性能如何？

05-12

小米徠卡合作機型水印調(diào)整，高管詳解“LEICA”字樣消失原因

05-12

奇瑞高管不當言論引爭議，吉利回應：共促行業(yè)健康發(fā)展

05-12

2025年618大促全攻略：淘寶京東活動時間表及紅包口令大公開！

05-12

TTD2025財年首季營收增25%，Open Internet戰(zhàn)略助力持續(xù)領跑

05-12

華為優(yōu)必選強強聯(lián)手，人形機器人將走進工業(yè)與家庭

05-12

點擊查看更多 +

全站最新

佳能印度發(fā)言人：智能手機與AI浪潮不構(gòu)成對專業(yè)相機的致命威脅

佳能印度發(fā)言人：智能手機與AI浪潮不構(gòu)成對專業(yè)相機的致命威脅

美團騎手養(yǎng)老保險試點首批補貼到賬，靈活參保無門檻受好評

美團騎手養(yǎng)老保險試點首批補貼到賬，靈活參保無門檻受好評

雷軍重啟健身打卡，網(wǎng)友齊呼小米加油，共渡難關見曙光

雷軍重啟健身打卡，網(wǎng)友齊呼小米加油，共渡難關見曙光

《消逝的光芒：困獸》重磅歸來，凱爾·克蘭攜新能力復仇戰(zhàn)喪尸！

《消逝的光芒：困獸》重磅歸來，凱爾·克蘭攜新能力復仇戰(zhàn)喪尸！

鴻蒙電腦“堅盾守護”，安全防護再升級！使用前需注意這些

鴻蒙電腦“堅盾守護”，安全防護再升級！使用前需注意這些

谷歌App圖標悄然換新顏，漸變色彩更顯柔和現(xiàn)代

谷歌App圖標悄然換新顏，漸變色彩更顯柔和現(xiàn)代

高速故障車“人肉警示”？交警：違規(guī)，罰！

高速故障車“人肉警示”？交警：違規(guī)，罰！

iOS 19 AI助力，超薄iPhone 17 Air續(xù)航難題有望解決？

iOS 19 AI助力，超薄iPhone 17 Air續(xù)航難題有望解決？

熱門內(nèi)容

本欄最新

中國安全專家助力蘋果修復自研5G基帶漏洞，保障網(wǎng)絡安全

中國安全專家助力蘋果修復自研5G基帶漏洞，保障網(wǎng)絡安全

榮耀Magic V5折疊屏新高度，驍龍8 Elite加持，厚度或低于9mm刷新記錄！

榮耀Magic V5折疊屏新高度，驍龍8 Elite加持，厚度或低于9mm刷新記錄！

蘋果服務業(yè)務未來何去何從？摩根士丹利揭示兩種極端可能性

蘋果服務業(yè)務未來何去何從？摩根士丹利揭示兩種極端可能性

華為乾崑智駕5月升級：智能輔助駕駛新增鳴笛、反饋與遠光燈自適應功能

華為乾崑智駕5月升級：智能輔助駕駛新增鳴笛、反饋與遠光燈自適應功能

LockBit黑客組織遭同行“黑吃黑”，內(nèi)部資料大曝光！

LockBit黑客組織遭同行“黑吃黑”，內(nèi)部資料大曝光！

阿聯(lián)酋國立學校低年級將普及AI教育，著重培養(yǎng)學生AI判斷力

阿聯(lián)酋國立學校低年級將普及AI教育，著重培養(yǎng)學生AI判斷力

騰訊混元T1-Vision新升級，元寶功能讓圖片理解更“懂你”

騰訊混元T1-Vision新升級，元寶功能讓圖片理解更“懂你”

《GTA 4》將登陸新主機？R星移植版或年內(nèi)發(fā)布

《GTA 4》將登陸新主機？R星移植版或年內(nèi)發(fā)布

智快實驗室評測約稿合作微信：netspread（注明:智快科技）簡體繁體根據(jù)客戶端智慧切換，如顯示有問題，請點擊頁面右上角的簡繁切換功能！
Copyright ? 2016-2021 zhikuai.com All rights reserved. 魯ICP備20033456號

微信群

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群

亚洲AV无码成人精品区日韩| 精品国产a∨无码一区二区三区| 蜜桃导航一精品导航站| 国产高清在线精品免费软件| 中文国产成人精品久久不卡| 亚洲福利一区二区精品秒拍| 四虎成人精品无码| 国产麻豆精品一区二区三区v视界国产麻豆一精品一AV一免费 | 亚洲av午夜福利精品一区人妖| 国产亚洲精品国看不卡| 亚洲精品国产福利一二区| 日韩特黄特色大片免费视频| 日韩大片高清播放器| 国产成人无码精品久久久露脸| 蝌蚪久热精品视频在线观看| 亚洲精品国产摄像头| 亚洲精品久久久久无码AV片软件| 亚洲精品午夜国产va久久| 97久久久久人妻精品专区| 国产精品三级视频| 精品国产一区二区三区不卡| 精品国产三级a在线观看| 亚洲国产成人精品青青草原| 久久亚洲国产精品成人AV秋霞| 精品无码一区在线观看| 久久久久久九九99精品| 97视频精品全国在线观看| 91福利精品老师国产自产在线| 91精品国产自产91精品| 91大神精品视频| 精品欧洲AV无码一区二区男男| 精品欧洲av无码一区二区14| 精品91自产拍在线| 2021最新久久久视精品爱| 日韩精品一线二线三线优势| WWW夜片内射视频日韩精品成人| 99久久免费精品国产72精品九九 | 日韩一级免费视频| 久青草中文字幕精品视频| 久久国产精品二国产精品| 亚洲精品无码久久千人斩|