智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

          阿里云通義開源Qwen2.5-VL,視覺理解能力全面超越GPT-4o

             發(fā)布時間:2025-01-28 15:17 作者:快訊

          1月28日凌晨,阿里云通義千問開源全新的視覺模型Qwen2.5-VL,推出3B、7B和72B三個尺寸版本。其中,旗艦版Qwen2.5-VL-72B在13項權(quán)威評測中奪得視覺理解冠軍,全面超越GPT-4o與Claude3.5。新的Qwen2.5-VL能夠更準確地解析圖像內(nèi)容,突破性地支持超1小時的視頻理解,無需微調(diào)就可變身為一個能操控手機和電腦的AI視覺智能體(Visual Agents),實現(xiàn)給指定朋友送祝福、電腦修圖、手機訂票等多步驟復雜操作。

          通義團隊此前曾開源Qwen-VL及Qwen2-VL兩代模型,支持開發(fā)者在手機、汽車、教育、金融、天文等不同場景進行AI探索,Qwen-VL系列模型全球總下載量超過3200萬次,是業(yè)界最受歡迎的多模態(tài)模型。今天,Qwen-VL再度全新升級到第三代版本。根據(jù)評估,此次發(fā)布的旗艦型模型Qwen2.5-VL-72B-Instruct斬獲OCRBenchV2、MMStar、MathVista等13項評測冠軍,在包括大學水平的問答、數(shù)學、文檔理解、視覺問答、視頻理解和視覺智能體方面表現(xiàn)出色,全面超越GPT-4o與Claude3.5;Qwen2.5-VL-7B-Instruct 在多個任務(wù)中超越了 GPT-40-mini。

          新的Qwen2.5-VL視覺知識解析能力實現(xiàn)了巨大飛躍:不僅能準確識別萬物,還能解析圖像的布局結(jié)構(gòu)及其中的文本、圖表、圖標等復雜內(nèi)容,從一張app截圖中就能分析出插圖和可點按鈕等元素;可精準定位視覺元素,擁有強大的關(guān)鍵信息抽取能力,比如準確識別和定位馬路上騎摩托車未戴頭盔的人,或是以多種格式提取發(fā)票中的核心信息并做結(jié)構(gòu)化的推理輸出;OCR能力提升到全新水平,更擅長理解圖表并擁有更全面的文檔解析能力,在精準識別的內(nèi)容同時還能完美還原文檔版面和格式。

          圖說:Qwen2.5-VL可精準定位視覺元素,在理解圖表和文檔方面優(yōu)勢顯著

          Qwen2.5-VL 的視頻理解能力也大幅增強,可以更好地看清動態(tài)世界。在時間處理上,新模型引入了動態(tài)幀率(FPS)訓練和絕對時間編碼技術(shù),使得Qwen2.5-VL不僅能夠能夠準確地理解小時級別的長視頻內(nèi)容,還可以在視頻中搜索具體事件,并對視頻的不同時間段進行要點總結(jié),從而快速、高效地幫助用戶提取視頻中蘊藏的關(guān)鍵信息。打開攝像頭,你就能與Qwen2.5-VL實時對話。

          視覺感知、解析及推理能力的增強,讓大模型自動化完成任務(wù)、與真實世界進行復雜交互成為可能。Qwen2.5-VL甚至能夠直接作為視覺智能體進行操作,而無需特定任務(wù)的微調(diào),比如讓模型直接操作電腦和手機,根據(jù)提示自動完成查詢天氣、訂機票、下載插件等多步驟復雜任務(wù)。開發(fā)者基于Qwen2.5-VL也能快速簡單開發(fā) 屬于自己的AI智能體,完成更多自動化處理和分析任務(wù),比如自動核驗快遞單地址與照片中的門牌號是否對應(yīng),根據(jù)家庭攝像頭判斷貓咪狀況進行自動喂食,自動進行火災(zāi)報警等。

          動圖:Qwen2.5-VL手機端AI Agent 演示:幫我給我的QQ好友張三,發(fā)送一條新春祝福

          在模型技術(shù)方面,與Qwen2-VL相比,Qwen2.5-VL增強了模型對時間和空間尺度的感知能力,并進一步簡化了網(wǎng)絡(luò)結(jié)構(gòu)以提高模型效率。Qwen2.5-VL創(chuàng)新地利用豐富的檢測框、點等坐標,讓模型直接感知和學習圖片在空間展示上的尺寸大小;同時,在時間維度也引入了動態(tài)FPS訓練和絕對時間編碼,進而擁有通過定位來捕捉事件的全新能力。而在重要的視覺編碼器設(shè)計中,通義團隊從頭開始訓練了原生動態(tài)分辨率的ViT,并采用RMSNorm和SwiGLU的結(jié)構(gòu)使得ViT和LLM保持一致,讓Qwen2.5-VL擁有更簡潔高效的視覺編解碼能力。

          圖說:Qwen2.5-VL模型結(jié)構(gòu)圖

          目前,不同尺寸及量化版本的Qwen2.5-VL模型已在魔搭社區(qū)、HuggingFace等平臺開源,開發(fā)者也可以在Qwen Chat上直接體驗最新模型。

          附鏈接:

          QwenChat:https://chat.qwenlm.ai/

          魔搭社區(qū):https://www.modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47

          HuggingFace:https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

          (完)

           
           
          更多>同類內(nèi)容
          全站最新
          熱門內(nèi)容
          本欄最新
           
          智快科技微信賬號
          微信群

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數(shù)碼群

          99热门精品一区二区三区无码| 国产精品成熟老女人视频| 国产精品天天在线| 国产99视频精品免费观看7| 久久精品国产亚洲77777| 国产成人精品一区二区三区免费| 久久乐国产精品亚洲综合| 亚洲国产精品成人一区| 日韩免费高清视频| 亚洲AV日韩AV高潮无码专区| 亚洲免费日韩无码系列| 国产精品中文字幕在线| 思思91精品国产综合在线| 精品综合久久久久久蜜月| 久草热8精品视频在线观看| 9久9久女女免费精品视频在线观看| 国产精品亚洲午夜一区二区三区| 精品无码国产自产拍在线观看| 久久精品隔壁老王影院| 国产精品毛片无遮挡| 日韩一级精品视频在线观看| 亚洲国产另类久久久精品小说| 伊人久久精品午夜| 国产成人无码精品久久久性色| 在线观看国产精品日韩av| 亚洲精品午夜无码专区| 国产亚洲精品自在久久| 最新国产乱人伦偷精品免费网站| 色噜噜亚洲精品中文字幕| 国产69精品久久久久9999APGF| 国产成人精品日本亚洲专区61| 中文字幕在线亚洲精品| 国精品午夜福利视频不卡 | 精品偷自拍另类在线观看| 999精品久久久中文字幕蜜桃| 久久精品aⅴ无码中文字字幕不卡 久久精品aⅴ无码中文字字幕重口 | 日韩精品无码免费专区午夜| 国产偷国产偷亚洲高清日韩| 久久精品国产亚洲av日韩 | 99久热只有精品视频免费看 | 四虎精品免费永久免费视频|