蘋果公司在最新研究中取得突破性進(jìn)展,推出了一項名為“多token預(yù)測”(MTP)的技術(shù)。這項技術(shù)旨在顯著提升大語言模型的響應(yīng)速度,同時保持輸出質(zhì)量不受影響。據(jù)科技媒體9to5Mac報道,MTP技術(shù)能夠?qū)⒋笳Z言模型的響應(yīng)速度提高2至3倍,在特定場景下甚至可以達(dá)到5倍的提升。
傳統(tǒng)的大語言模型在生成文本時,通常采用自回歸方式,即逐個輸出token。這種方式雖然保證了文本的連貫性,但每一步都依賴于前序內(nèi)容,導(dǎo)致生成速度受限。例如,在生成句子“The cat is black”時,模型需要在輸出“is”后,基于上下文和訓(xùn)練經(jīng)驗,從詞匯表中計算“black”等候選詞的概率,再選擇最合適的詞。這種串行機(jī)制在移動設(shè)備上尤為影響用戶體驗。
然而,蘋果的研究團(tuán)隊在最新論文《Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential》中發(fā)現(xiàn),盡管模型被訓(xùn)練為預(yù)測下一個詞,但其內(nèi)部實際上具備對后續(xù)多個詞的潛在判斷能力?;谶@一發(fā)現(xiàn),研究團(tuán)隊提出了MTP框架,支持模型一次生成多個詞,從而大幅提升生成效率。
MTP技術(shù)的核心在于引入“掩碼”(Mask)token作為占位符,并讓模型并行推測后續(xù)多個詞。每個推測結(jié)果會立即與標(biāo)準(zhǔn)自回歸解碼結(jié)果進(jìn)行對比,如果不符,則自動回退到逐詞生成模式,以確保輸出質(zhì)量不受影響。這種“推測-驗證”機(jī)制在提速的同時,保留了傳統(tǒng)方法的準(zhǔn)確性,實現(xiàn)了速度與質(zhì)量的平衡。
為了驗證MTP技術(shù)的有效性,研究團(tuán)隊基于開源模型Tulu3-8B進(jìn)行了實驗。實驗中,蘋果訓(xùn)練模型最多推測8個后續(xù)token。結(jié)果顯示,在問答和對話等通用任務(wù)中,響應(yīng)速度平均提升了2至3倍;在代碼生成、數(shù)學(xué)推理等結(jié)構(gòu)化場景中,提速更是達(dá)到了5倍。這一性能提升并未以犧牲生成質(zhì)量為代價,關(guān)鍵在于采用了“門控LoRA適配”技術(shù),動態(tài)調(diào)節(jié)參數(shù),僅在需要時激活推測模塊。
MTP技術(shù)的推出為設(shè)備端大模型部署提供了新的路徑。相比依賴云端計算,MTP技術(shù)可以在iPhone、Mac等本地設(shè)備上實現(xiàn)更快響應(yīng),降低延遲和能耗。這一技術(shù)兼容現(xiàn)有模型架構(gòu),具備較強(qiáng)的落地潛力。未來,蘋果或?qū)TP技術(shù)集成至Siri、Apple Intelligence等產(chǎn)品中,進(jìn)一步提升用戶交互體驗。