智快網 - 新科技與新能源行業網絡媒體

          小米開源聲音理解大模型MiDashengLM-7B,22項評測刷新SOTA記錄

             發布時間:2025-08-04 16:02 作者:趙云飛

          小米公司近期宣布了一項重大技術進展,正式開源了其聲音理解大模型MiDashengLM-7B。這一模型在多模態大模型領域取得了顯著成就,刷新了22個公開評測集上的最佳成績(SOTA),并展示了業界領先的推理效率和數據吞吐能力。

          MiDashengLM-7B的構建基于Xiaomi Dasheng音頻編碼器和Qwen2.5-Omni-7B Thinker自回歸解碼器,通過創新的通用音頻描述訓練策略,實現了對語音、環境聲音及音樂的統一理解。這一能力使得模型不僅能準確捕捉并分析聲音內容,還能理解其背后的情境與情感,提升了全場景智能生態的用戶體驗。

          據悉,小米于2024年首次推出了Xiaomi Dasheng聲音基座模型,而此次開源的7B模型是對該基座模型的擴展與升級。目前,該系列模型已在小米智能家居、汽車座艙等多個領域實現了超過30個應用場景的落地。

          在性能表現上,MiDashengLM-7B在音頻描述、聲音理解、音頻問答等多個任務中展現出了明顯的優勢。特別是在音頻描述任務中,其性能超越了Qwen和Kimi等同類7B模型。在聲音理解任務中,MiDashengLM-7B也僅在少數項目上略微落后于Kimi的7B模型,整體表現領先。

          除了卓越的性能表現,MiDashengLM-7B在推理效率上也實現了顯著提升。在單個樣本推理的情形下,其首個token預測時間(TTFT)僅為Qwen2.5-Omni-7B的1/4。同時,在批次處理時,MiDashengLM-7B能夠在80GB GPU上處理更大的batch size,而不會出現顯存溢出的問題,從而提高了數據吞吐效率。

          MiDashengLM-7B還采用了創新的訓練范式,即通用音頻描述對齊范式。這一范式避免了傳統ASR轉錄數據對齊方法的局限性,能夠捕捉說話人的情感、空間混響等關鍵聲學特征,迫使模型學習音頻場景的深層語義關聯。這一方法的引入,使得模型能夠利用幾乎所有的數據,包括噪聲或非語音內容,從而提高了數據利用率和模型性能。

          小米表示,音頻理解是構建全場景智能生態的關鍵領域之一。MiDashengLM-7B的推出,將進一步提升小米設備在自然語言交互方面的體驗,從智能家居、智能汽車到智能手機等各個領域都能受益。未來,小米將繼續致力于AI大模型領域的研究和創新,為用戶提供更加智能、便捷的服務。

           
           
          更多>同類內容
          全站最新
          熱門內容
          本欄最新
           
          智快科技微信賬號
          微信群

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數碼群

          国产精品熟女一区二区| 1000部精品久久久久久久久| 国产精品视频第一页| 在线观看日韩一区| 久久亚洲精精品中文字幕| 中文字幕日韩精品无码内射| 国产成人精品曰本亚洲79ren| 久久精品男人影院| 亚洲日韩精品无码专区网站| 91精品免费不卡在线观看| 国产韩国精品一区二区三区| 无码日本精品XXXXXXXXX| 最新精品露脸国产在线| 日韩免费无码视频一区二区三区 | 国产探花在线精品一区二区| 日韩一区二区三区在线精品| 亚洲熟妇无码久久精品| 国产成人亚洲精品狼色在线| 日韩一区二区久久久久久| 日韩免费精品视频| 人妻精品久久久久中文字幕69 | 久久精品国产69国产精品亚洲| 一本色道久久88综合日韩精品| 国模吧一区二区三区精品视频| 99热在线只有精品| 91精品国产综合久久久久久 | 无码日韩精品一区二区免费| 精品日产一卡2卡三卡4卡自拍| 国产在线精品一区二区不卡| 国产中老年妇女精品| 亚洲AV无码国产精品色午友在线| 米奇777四色精品人人爽| 成人国产精品高清在线观看| 久久久久琪琪去精品色无码| 国产精品免费看香蕉| 国内精品免费视频精选在线观看 | 精品无码中出一区二区| 伊人久久精品线影院| 亚洲国产日韩一区高清在线| 精品久久久久久久无码| 国产亚洲日韩在线a不卡|