小米公司近期宣布了一項重大技術進展,正式開源了其聲音理解大模型MiDashengLM-7B。這一模型在多模態大模型領域取得了顯著成就,刷新了22個公開評測集上的最佳成績(SOTA),并展示了業界領先的推理效率和數據吞吐能力。
MiDashengLM-7B的構建基于Xiaomi Dasheng音頻編碼器和Qwen2.5-Omni-7B Thinker自回歸解碼器,通過創新的通用音頻描述訓練策略,實現了對語音、環境聲音及音樂的統一理解。這一能力使得模型不僅能準確捕捉并分析聲音內容,還能理解其背后的情境與情感,提升了全場景智能生態的用戶體驗。
據悉,小米于2024年首次推出了Xiaomi Dasheng聲音基座模型,而此次開源的7B模型是對該基座模型的擴展與升級。目前,該系列模型已在小米智能家居、汽車座艙等多個領域實現了超過30個應用場景的落地。
在性能表現上,MiDashengLM-7B在音頻描述、聲音理解、音頻問答等多個任務中展現出了明顯的優勢。特別是在音頻描述任務中,其性能超越了Qwen和Kimi等同類7B模型。在聲音理解任務中,MiDashengLM-7B也僅在少數項目上略微落后于Kimi的7B模型,整體表現領先。
除了卓越的性能表現,MiDashengLM-7B在推理效率上也實現了顯著提升。在單個樣本推理的情形下,其首個token預測時間(TTFT)僅為Qwen2.5-Omni-7B的1/4。同時,在批次處理時,MiDashengLM-7B能夠在80GB GPU上處理更大的batch size,而不會出現顯存溢出的問題,從而提高了數據吞吐效率。
MiDashengLM-7B還采用了創新的訓練范式,即通用音頻描述對齊范式。這一范式避免了傳統ASR轉錄數據對齊方法的局限性,能夠捕捉說話人的情感、空間混響等關鍵聲學特征,迫使模型學習音頻場景的深層語義關聯。這一方法的引入,使得模型能夠利用幾乎所有的數據,包括噪聲或非語音內容,從而提高了數據利用率和模型性能。
小米表示,音頻理解是構建全場景智能生態的關鍵領域之一。MiDashengLM-7B的推出,將進一步提升小米設備在自然語言交互方面的體驗,從智能家居、智能汽車到智能手機等各個領域都能受益。未來,小米將繼續致力于AI大模型領域的研究和創新,為用戶提供更加智能、便捷的服務。