華為在AI領域邁出了重要一步,近日宣布將CANN(神經網絡計算架構)全面開源開放。這一舉動緊隨其昨日開源三款盤古大模型的步伐,這些模型的參數規模分別為1B、7B和驚人的718B。
CANN,全稱為Compute Architecture for Neural Networks,是華為專為AI場景設計的異構計算架構。其旨在提升華為昇騰AI芯片在處理復雜AI任務時的效率。此次全面開源,意味著開發者將能夠更深入地利用這一架構,進行自定義開發,進一步豐富華為AI生態。
值得注意的是,華為早在2024年就已宣布對昇騰CANN進行深度開放,而此次的全面開源開放可以看作是這一策略的深化和補充。華為輪值董事長徐直軍表示,Mind系列應用使能套件和工具鏈也將全面開源,為用戶提供更為靈活的開發支持。
此次開源的三款盤古模型分別為openPangu-Embedded-1B-model、openPangu-Ultra-MoE-718B-model和openPangu-Embedded-7B-model。這些模型均基于昇騰NPU進行訓練,并在Gitcode平臺上提供了下載鏈接。
其中,openPangu-Embedded-1B是一個專為端側設備運行設計的高效語言模型,它采用了26層Dense架構,并訓練了約10T tokens。據稱,該模型在保持端側運行要求的同時,能夠達到較高的精度。而openPangu-Ultra-MoE-718B則是一個混合專家語言模型,其總參數量高達718B,激活參數量為39B,訓練了約19T tokens,并具備快慢思考融合能力。
openPangu-Ultra-MoE-718B在架構上采用了多種創新設計,如Multi-head Latent Attention(MLA)、Multi-Token Prediction(MTP)以及大稀疏比等,以提升模型的性能和訓練效率。該模型還通過Depth-Scaled Sandwich-Norm和TinyInit等技術手段,提升了訓練的穩定性。
華為在AI領域的這一系列舉措,無疑將進一步推動其AI軟硬件生態的發展。昇騰CANN作為連接華為AI硬件和上層應用的關鍵技術,其開源程度的提高將有助于吸引更多開發者加入,共同推動華為AI生態的成長。同時,盤古大模型的進一步開源也將與CANN形成協同效應,共同提升華為在AI領域的競爭力。
在當前國內AI賽道火熱的背景下,華為昇騰AI芯片+盤古大模型的技術路徑備受矚目。隨著自主可控成為行業關注的焦點之一,華為的這一組合有望成為推動國內AI產業發展的重要力量。