在近日舉辦的2025年I/O開發者大會上,谷歌推出了一項重大技術革新——Gemma 3n端側多模態AI模型。這一創新技術能夠在智能手機、平板電腦以及筆記本電腦等設備上實現本地運行,輕松處理包括音頻、文本、圖片和視頻在內的多種數據類型。
據Gemma產品經理Gus Martins介紹,Gemma 3n模型不僅功能強大,而且極具兼容性,能在內存小于2GB的設備上流暢運行。其采用了與Gemini Nano相同的架構,但在性能上實現了顯著提升。Gus表示:“Gemma 3n的推出,標志著設備端AI應用進入了一個全新的發展階段,其表現力令人驚嘆?!?/p>
Gemma 3n的亮點之一在于其應用了谷歌DeepMind團隊研發的Per-Layer Embeddings(PLE)技術。這一技術顯著降低了模型的內存需求,使得Gemma 3n在保持5B和8B參數量的同時,內存占用卻分別僅相當于2B和4B模型。谷歌宣稱,Gemma 3n的內存占用分別低至2GB和3GB,為移動設備上的AI應用提供了更多可能性。
除了內存優化外,Gemma 3n還通過PLE、KVC共享和高級激活量化等技術,在移動設備上的響應速度提升了1.5倍,同時質量也優于Gemma 3的4B版本。這一提升使得Gemma 3n在處理復雜任務時更加迅速和準確。
Gemma 3n在非英語語言處理方面也取得了顯著進展。尤其在日語、德語、韓語、西班牙語和法語等語言中,其表現尤為突出。在多語言基準測試WMT24++中,Gemma 3n獲得了高達50.1%的分數,展現了其強大的跨語言處理能力。
對于用戶而言,使用Gemma 3n無需進行任何復雜設置。目前,用戶已經可以通過Google AI Studio直接在瀏覽器中體驗Gemma 3n的強大功能。而對于開發者來說,他們可以通過Google AI Edge集成本地功能,實現文本和圖像的理解與生成。未來,谷歌還將繼續擴展Gemma 3n的能力,為開發者提供更多便捷和高效的工具。