近期,蘋果公司在AI圖像生成領(lǐng)域的研究引發(fā)了廣泛關(guān)注。與業(yè)界普遍采用的擴散模型或自回歸模型不同,蘋果選擇了一條較為冷門的路徑——歸一化流技術(shù),來開發(fā)其AI圖像生成模型。
歸一化流技術(shù),這一被業(yè)界“遺忘”的方法,其核心在于通過數(shù)學變換,將現(xiàn)實世界的數(shù)據(jù)(如圖像)轉(zhuǎn)換為結(jié)構(gòu)化噪聲,并能夠從噪聲中還原出圖像樣本。這一技術(shù)的最大亮點在于,它能夠精確計算生成圖像的概率,這是擴散模型所不具備的能力。然而,歸一化流模型并不常見,主要是因為其研發(fā)成本高昂,且早期模型生成的圖像往往較為模糊,缺乏細節(jié)。
在蘋果的最新研究論文中,公司推出了一種名為TarFlow的新型歸一化流技術(shù)模型。TarFlow的創(chuàng)新之處在于,它將待生成的大圖分割成多個“小區(qū)塊”,然后以區(qū)塊為單位生成一系列像素值。每一塊圖像的像素值都依賴于前面已生成的部分,從而避免了圖像在壓縮為固定詞匯表時產(chǎn)生的質(zhì)量損失和表現(xiàn)僵化問題。這種逐步生成的方式,使得TarFlow能夠生成更為細膩、真實的圖像。
盡管TarFlow在圖像生成方面取得了顯著進展,但在生成高分辨率圖像時仍面臨挑戰(zhàn)。為此,蘋果在TarFlow的基礎上進一步提出了增強版本——STARFlow。STARFlow的最大改進在于,它不再直接在像素層面生成圖像,而是在“潛空間”中工作。通過首先生成圖像的壓縮表示,再通過解碼器進行放大還原,STARFlow能夠在不損失質(zhì)量的前提下,顯著提升生成效率。
STARFlow還改進了對文本提示的處理方式。與TarFlow不同,STARFlow不再內(nèi)建專用文本編碼器,而是支持調(diào)用現(xiàn)有語言模型來處理用戶的語言指令。這一改進使得STARFlow的圖像生成部分能夠更專注于圖像細節(jié)的生成與優(yōu)化,從而進一步提升圖像質(zhì)量。
蘋果公司的這一系列研究,不僅展示了歸一化流技術(shù)在AI圖像生成領(lǐng)域的潛力,也為業(yè)界提供了新的思路和方法。隨著技術(shù)的不斷進步和完善,相信未來會有更多基于歸一化流技術(shù)的AI圖像生成模型涌現(xiàn),為人們的生活帶來更多便利和驚喜。