经典三级一区二区,亚洲蜜桃av,久久久久久91

小紅書開源多模態(tài)大模型dots.vlm1，視覺理解與推理能力接近頂尖水平

發(fā)布時(shí)間：2025-08-07 18:17 來源：ITBEAR 作者：顧青青

小紅書，這家以“種草”文化著稱的社交平臺(tái)，近期在AI技術(shù)自研領(lǐng)域邁出了重要步伐，連續(xù)兩個(gè)月內(nèi)發(fā)布了三款開源模型，引起了業(yè)界的廣泛關(guān)注。最新亮相的多模態(tài)大模型dots.vlm1，憑借其強(qiáng)大的視覺理解和推理能力，展現(xiàn)了接近Gemini 2.5 Pro閉源模型的實(shí)力。

在競(jìng)爭(zhēng)激烈的AI領(lǐng)域，各大科技公司紛紛推出自家模型，OpenAI的Claude升級(jí)至4.1版本，谷歌則推出了用于生成游戲世界的Genie 3，引發(fā)社區(qū)熱議。國(guó)產(chǎn)模型也不甘示弱，HuggingFace平臺(tái)上的前十名開源模型中，已有多個(gè)來自國(guó)內(nèi)團(tuán)隊(duì)。然而，仔細(xì)觀察這些排名靠前的模型，不難發(fā)現(xiàn)，大多數(shù)仍為文本模型，缺乏多模態(tài)能力。

小紅書的人文智能實(shí)驗(yàn)室（Humane Intelligence Lab，簡(jiǎn)稱hi lab）近日低調(diào)開源了其首個(gè)多模態(tài)大模型dots.vlm1，為視覺語(yǔ)言模型（VLM）領(lǐng)域帶來了新氣象。這款模型基于小紅書自研的12億參數(shù)NaViT視覺編碼器和DeepSeek V3大語(yǔ)言模型構(gòu)建，不僅在視覺理解和推理任務(wù)上表現(xiàn)出色，還保持了純文本任務(wù)中的競(jìng)爭(zhēng)力。

hi lab此前開源的dots.ocr文檔解析模型已在Huggingface平臺(tái)上獲得熱榜第七的好成績(jī)，盡管其基礎(chǔ)模型參數(shù)僅為17億，但性能卻達(dá)到了業(yè)界領(lǐng)先水平。這一成就顯示了hi lab團(tuán)隊(duì)在AI技術(shù)自研方面的認(rèn)真態(tài)度和強(qiáng)大實(shí)力。

dots.vlm1在多個(gè)視覺評(píng)測(cè)集上的表現(xiàn)接近當(dāng)前領(lǐng)先的Gemini 2.5 Pro與Seed-VL1.5 Thinking模型，顯示出強(qiáng)大的圖文理解與推理能力。在文本推理任務(wù)上，dots.vlm1的表現(xiàn)與DeepSeek-R1-0528相當(dāng)，盡管在數(shù)學(xué)和代碼能力上已具備一定的通用性，但在更多樣化的推理任務(wù)上仍有提升空間。

在實(shí)際測(cè)試中，dots.vlm1展現(xiàn)了令人驚艷的能力。面對(duì)復(fù)雜圖表和數(shù)獨(dú)問題，模型能夠逐步分析并給出正確答案，甚至在長(zhǎng)時(shí)間思考過程中出現(xiàn)了類似DeepSeek的“啊哈時(shí)刻”，體現(xiàn)了其真正的思考和推理能力。dots.vlm1還能解決紅綠色盲數(shù)字問題，進(jìn)行數(shù)學(xué)計(jì)算，甚至模仿李白詩(shī)風(fēng)創(chuàng)作詩(shī)詞，展現(xiàn)了其全面的多模態(tài)能力。

dots.vlm1的技術(shù)架構(gòu)由三個(gè)核心組件構(gòu)成：全自研的NaViT視覺編碼器、輕量級(jí)的MLP適配器以及DeepSeek V3 MoE大語(yǔ)言模型。這一架構(gòu)通過三階段流程進(jìn)行訓(xùn)練，包括視覺編碼器預(yù)訓(xùn)練、VLM預(yù)訓(xùn)練和VLM后訓(xùn)練，旨在提升模型對(duì)多樣視覺數(shù)據(jù)的感知能力和泛化能力。

NaViT視覺編碼器是dots.vlm1的核心之一，它完全從零開始訓(xùn)練，原生支持動(dòng)態(tài)分辨率，專為視覺語(yǔ)言模型設(shè)計(jì)。通過兩階段的訓(xùn)練策略，NaViT編碼器在基礎(chǔ)視覺和語(yǔ)義感知以及高分辨率輸入處理方面均表現(xiàn)出色。

在預(yù)訓(xùn)練數(shù)據(jù)方面，hi lab為dots.vlm1準(zhǔn)備了跨模態(tài)互譯數(shù)據(jù)和跨模態(tài)融合數(shù)據(jù)兩大類別，旨在構(gòu)建一個(gè)全譜系的數(shù)據(jù)分布，覆蓋所有可被人類理解且可轉(zhuǎn)化為離散token序列的視覺信息。這些數(shù)據(jù)包括普通圖像、復(fù)雜圖表、OCR場(chǎng)景圖像、視頻幀以及Grounding監(jiān)督數(shù)據(jù)等，為模型的多模態(tài)能力提供了有力支持。

小紅書之所以在AI大模型領(lǐng)域加大自研力度，是因?yàn)槎嗄B(tài)能力已成為通向通用人工智能（AGI）的必經(jīng)之路。通過模擬人類利用多種感官綜合感知世界的方式，多模態(tài)AI能夠形成更全面、細(xì)致的理解，對(duì)復(fù)雜場(chǎng)景作出更整體化的判斷。在自動(dòng)駕駛、具身智能等領(lǐng)域，VLM正成為機(jī)器人理解和融入人類社會(huì)的重要工具。

小紅書hi lab在AI技術(shù)自研上的決心和投入不僅體現(xiàn)在dots.vlm1上，還體現(xiàn)在其不斷壯大的dots模型家族中。從dots.llm1到dots.ocr再到dots.vlm1，小紅書正逐步構(gòu)建起自己的AI技術(shù)生態(tài)。未來，隨著AI技術(shù)的不斷發(fā)展，小紅書有望在內(nèi)容理解、個(gè)性化推薦以及社區(qū)交互等方面實(shí)現(xiàn)更多創(chuàng)新應(yīng)用。

更多>同類內(nèi)容

小紅書開源多模態(tài)大模型dots.vlm1，視覺理解與推理能力接近頂尖水平

小紅書開源多模態(tài)大模型dots.vlm1，視覺理解與推理能力接近頂尖水平