智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

          小紅書開源多模態(tài)大模型dots.vlm1,視覺理解與推理能力接近頂尖水平

             發(fā)布時(shí)間:2025-08-07 18:17 作者:顧青青

          小紅書,這家以“種草”文化著稱的社交平臺(tái),近期在AI技術(shù)自研領(lǐng)域邁出了重要步伐,連續(xù)兩個(gè)月內(nèi)發(fā)布了三款開源模型,引起了業(yè)界的廣泛關(guān)注。最新亮相的多模態(tài)大模型dots.vlm1,憑借其強(qiáng)大的視覺理解和推理能力,展現(xiàn)了接近Gemini 2.5 Pro閉源模型的實(shí)力。

          在競(jìng)爭(zhēng)激烈的AI領(lǐng)域,各大科技公司紛紛推出自家模型,OpenAI的Claude升級(jí)至4.1版本,谷歌則推出了用于生成游戲世界的Genie 3,引發(fā)社區(qū)熱議。國(guó)產(chǎn)模型也不甘示弱,HuggingFace平臺(tái)上的前十名開源模型中,已有多個(gè)來自國(guó)內(nèi)團(tuán)隊(duì)。然而,仔細(xì)觀察這些排名靠前的模型,不難發(fā)現(xiàn),大多數(shù)仍為文本模型,缺乏多模態(tài)能力。

          小紅書的人文智能實(shí)驗(yàn)室(Humane Intelligence Lab,簡(jiǎn)稱hi lab)近日低調(diào)開源了其首個(gè)多模態(tài)大模型dots.vlm1,為視覺語(yǔ)言模型(VLM)領(lǐng)域帶來了新氣象。這款模型基于小紅書自研的12億參數(shù)NaViT視覺編碼器和DeepSeek V3大語(yǔ)言模型構(gòu)建,不僅在視覺理解和推理任務(wù)上表現(xiàn)出色,還保持了純文本任務(wù)中的競(jìng)爭(zhēng)力。

          hi lab此前開源的dots.ocr文檔解析模型已在Huggingface平臺(tái)上獲得熱榜第七的好成績(jī),盡管其基礎(chǔ)模型參數(shù)僅為17億,但性能卻達(dá)到了業(yè)界領(lǐng)先水平。這一成就顯示了hi lab團(tuán)隊(duì)在AI技術(shù)自研方面的認(rèn)真態(tài)度和強(qiáng)大實(shí)力。

          dots.vlm1在多個(gè)視覺評(píng)測(cè)集上的表現(xiàn)接近當(dāng)前領(lǐng)先的Gemini 2.5 Pro與Seed-VL1.5 Thinking模型,顯示出強(qiáng)大的圖文理解與推理能力。在文本推理任務(wù)上,dots.vlm1的表現(xiàn)與DeepSeek-R1-0528相當(dāng),盡管在數(shù)學(xué)和代碼能力上已具備一定的通用性,但在更多樣化的推理任務(wù)上仍有提升空間。

          在實(shí)際測(cè)試中,dots.vlm1展現(xiàn)了令人驚艷的能力。面對(duì)復(fù)雜圖表和數(shù)獨(dú)問題,模型能夠逐步分析并給出正確答案,甚至在長(zhǎng)時(shí)間思考過程中出現(xiàn)了類似DeepSeek的“啊哈時(shí)刻”,體現(xiàn)了其真正的思考和推理能力。dots.vlm1還能解決紅綠色盲數(shù)字問題,進(jìn)行數(shù)學(xué)計(jì)算,甚至模仿李白詩(shī)風(fēng)創(chuàng)作詩(shī)詞,展現(xiàn)了其全面的多模態(tài)能力。

          dots.vlm1的技術(shù)架構(gòu)由三個(gè)核心組件構(gòu)成:全自研的NaViT視覺編碼器、輕量級(jí)的MLP適配器以及DeepSeek V3 MoE大語(yǔ)言模型。這一架構(gòu)通過三階段流程進(jìn)行訓(xùn)練,包括視覺編碼器預(yù)訓(xùn)練、VLM預(yù)訓(xùn)練和VLM后訓(xùn)練,旨在提升模型對(duì)多樣視覺數(shù)據(jù)的感知能力和泛化能力。

          NaViT視覺編碼器是dots.vlm1的核心之一,它完全從零開始訓(xùn)練,原生支持動(dòng)態(tài)分辨率,專為視覺語(yǔ)言模型設(shè)計(jì)。通過兩階段的訓(xùn)練策略,NaViT編碼器在基礎(chǔ)視覺和語(yǔ)義感知以及高分辨率輸入處理方面均表現(xiàn)出色。

          在預(yù)訓(xùn)練數(shù)據(jù)方面,hi lab為dots.vlm1準(zhǔn)備了跨模態(tài)互譯數(shù)據(jù)和跨模態(tài)融合數(shù)據(jù)兩大類別,旨在構(gòu)建一個(gè)全譜系的數(shù)據(jù)分布,覆蓋所有可被人類理解且可轉(zhuǎn)化為離散token序列的視覺信息。這些數(shù)據(jù)包括普通圖像、復(fù)雜圖表、OCR場(chǎng)景圖像、視頻幀以及Grounding監(jiān)督數(shù)據(jù)等,為模型的多模態(tài)能力提供了有力支持。

          小紅書之所以在AI大模型領(lǐng)域加大自研力度,是因?yàn)槎嗄B(tài)能力已成為通向通用人工智能(AGI)的必經(jīng)之路。通過模擬人類利用多種感官綜合感知世界的方式,多模態(tài)AI能夠形成更全面、細(xì)致的理解,對(duì)復(fù)雜場(chǎng)景作出更整體化的判斷。在自動(dòng)駕駛、具身智能等領(lǐng)域,VLM正成為機(jī)器人理解和融入人類社會(huì)的重要工具。

          小紅書hi lab在AI技術(shù)自研上的決心和投入不僅體現(xiàn)在dots.vlm1上,還體現(xiàn)在其不斷壯大的dots模型家族中。從dots.llm1到dots.ocr再到dots.vlm1,小紅書正逐步構(gòu)建起自己的AI技術(shù)生態(tài)。未來,隨著AI技術(shù)的不斷發(fā)展,小紅書有望在內(nèi)容理解、個(gè)性化推薦以及社區(qū)交互等方面實(shí)現(xiàn)更多創(chuàng)新應(yīng)用。

           
           
          更多>同類內(nèi)容
          全站最新
          熱門內(nèi)容
          本欄最新
           
          智快科技微信賬號(hào)
          微信群

          微信掃一掃
          加微信拉群
          電動(dòng)汽車群
          科技數(shù)碼群

          久久精品国产亚洲av麻| 精品国偷自产在线视频| 国产乱码精品一区二区三区 | 精品一区二区三区在线视频观看| 青草久久精品亚洲综合专区| 99久久免费国产精品特黄| 亚洲精品中文字幕无码AV| 久久精品一品道久久精品9| 亚洲精品美女久久777777| 久久久久人妻一区精品果冻| 亚洲精品高清在线| 日韩精品中文乱码在线观看| 中日韩产精品1卡二卡三卡| 国产精品午夜爆乳美女视频| 成人精品一区二区三区校园激情| 久久中文字幕精品| 99视频精品全部在线观看| 精品成人乱色一区二区| 亚洲国产精品日韩在线| 在线精品91青草国产在线观看| 99精品视频99| 99re热这里只有精品视频| 99无码精品二区在线视频| 日本一卡精品视频免费| 日韩精品系列产品| 99精品久久99久久久久久| 99热这里有免费国产精品| 久久综合国产乱子伦精品免费| 亚洲一二成人精品区| 日韩精品一区二区三区色欲AV| 97视频精品全国在线观看| 久久精品中文闷骚内射| 最新69堂国产成人精品视频| 久久久久se色偷偷亚洲精品av| 精品日产卡一卡二卡国色天香| 精品久久久久久久无码| 国产成人精品第一区二区| 国内精品自在自线视频| 国内久久精品视频| 中日韩精品视频在线观看| 日韩去日本高清在线|