欧美妇乱xxxxx视频,精品中文字幕一区,欧美精品1区

小米開源聲音理解大模型MiDashengLM-7B，22項評測刷新SOTA記錄

發布時間：2025-08-04 16:02 來源：ITBEAR 作者：趙云飛

小米公司近期宣布了一項重大技術進展，正式開源了其聲音理解大模型MiDashengLM-7B。這一模型在多模態大模型領域取得了顯著成就，刷新了22個公開評測集上的最佳成績（SOTA），并展示了業界領先的推理效率和數據吞吐能力。

MiDashengLM-7B的構建基于Xiaomi Dasheng音頻編碼器和Qwen2.5-Omni-7B Thinker自回歸解碼器，通過創新的通用音頻描述訓練策略，實現了對語音、環境聲音及音樂的統一理解。這一能力使得模型不僅能準確捕捉并分析聲音內容，還能理解其背后的情境與情感，提升了全場景智能生態的用戶體驗。

據悉，小米于2024年首次推出了Xiaomi Dasheng聲音基座模型，而此次開源的7B模型是對該基座模型的擴展與升級。目前，該系列模型已在小米智能家居、汽車座艙等多個領域實現了超過30個應用場景的落地。

在性能表現上，MiDashengLM-7B在音頻描述、聲音理解、音頻問答等多個任務中展現出了明顯的優勢。特別是在音頻描述任務中，其性能超越了Qwen和Kimi等同類7B模型。在聲音理解任務中，MiDashengLM-7B也僅在少數項目上略微落后于Kimi的7B模型，整體表現領先。

除了卓越的性能表現，MiDashengLM-7B在推理效率上也實現了顯著提升。在單個樣本推理的情形下，其首個token預測時間（TTFT）僅為Qwen2.5-Omni-7B的1/4。同時，在批次處理時，MiDashengLM-7B能夠在80GB GPU上處理更大的batch size，而不會出現顯存溢出的問題，從而提高了數據吞吐效率。

MiDashengLM-7B還采用了創新的訓練范式，即通用音頻描述對齊范式。這一范式避免了傳統ASR轉錄數據對齊方法的局限性，能夠捕捉說話人的情感、空間混響等關鍵聲學特征，迫使模型學習音頻場景的深層語義關聯。這一方法的引入，使得模型能夠利用幾乎所有的數據，包括噪聲或非語音內容，從而提高了數據利用率和模型性能。

小米表示，音頻理解是構建全場景智能生態的關鍵領域之一。MiDashengLM-7B的推出，將進一步提升小米設備在自然語言交互方面的體驗，從智能家居、智能汽車到智能手機等各個領域都能受益。未來，小米將繼續致力于AI大模型領域的研究和創新，為用戶提供更加智能、便捷的服務。

更多>同類內容