近期,科技界迎來(lái)了一項(xiàng)引人矚目的新進(jìn)展。據(jù)科技媒體The Decoder報(bào)道,OpenAI的高級(jí)模型開(kāi)發(fā)領(lǐng)軍人物Jakub Pachocki在一篇博文中提出了一個(gè)頗具顛覆性的觀(guān)點(diǎn):AI推理模型正逐步展現(xiàn)出自主生成知識(shí)的能力。
Pachocki強(qiáng)調(diào),這種推理機(jī)制并非是對(duì)人類(lèi)思維的簡(jiǎn)單模仿,而是一個(gè)基于大數(shù)據(jù)和先進(jìn)算法的創(chuàng)新過(guò)程。他詳細(xì)闡述了AI學(xué)習(xí)的兩個(gè)階段。在第一階段,模型通過(guò)無(wú)監(jiān)督預(yù)訓(xùn)練,廣泛吸收各類(lèi)數(shù)據(jù),構(gòu)建出一個(gè)無(wú)意識(shí)的“世界模型”,這個(gè)模型為理解現(xiàn)實(shí)世界的基本結(jié)構(gòu)提供了基礎(chǔ)。
進(jìn)入第二階段,模型則通過(guò)強(qiáng)化學(xué)習(xí)與人類(lèi)反饋(RLHF)的結(jié)合,將基礎(chǔ)模型轉(zhuǎn)化為能夠解決實(shí)際問(wèn)題的助手。Pachocki特別指出,在最新的推理模型中,這一階段發(fā)揮著至關(guān)重要的作用。他同時(shí)提到,OpenAI在處理有明確答案的任務(wù)時(shí),仍采用傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法,而RLHF則更適合應(yīng)對(duì)復(fù)雜問(wèn)題,盡管其擴(kuò)展性受到一定限制。
Pachocki還對(duì)傳統(tǒng)的學(xué)習(xí)階段劃分提出了質(zhì)疑。他認(rèn)為,推理模型的“思考”能力實(shí)際上深深植根于預(yù)訓(xùn)練數(shù)據(jù)中,因此預(yù)訓(xùn)練與強(qiáng)化學(xué)習(xí)不應(yīng)被視為兩個(gè)完全獨(dú)立的階段,而是需要更加緊密地融合。
近期一篇學(xué)術(shù)論文也指出,推理訓(xùn)練并非為模型帶來(lái)了全新的能力,而是幫助它們以更高效的方式運(yùn)用已有知識(shí)。例如,模型能夠以更加結(jié)構(gòu)化的方式解決已知問(wèn)題。Pachocki對(duì)這一觀(guān)點(diǎn)表示贊同,并進(jìn)一步指出,模型已經(jīng)開(kāi)始展現(xiàn)出發(fā)現(xiàn)新見(jiàn)解的潛力,這為AI的未來(lái)發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。
在談到通用人工智能(AGI)時(shí),Pachocki表示自己的觀(guān)點(diǎn)一直在不斷演變。他回憶起自己作為學(xué)生時(shí),曾認(rèn)為AI掌握圍棋是一個(gè)遙不可及的目標(biāo)。然而,2016年AlphaGo的勝利徹底顛覆了他的看法。如今,他將AI的經(jīng)濟(jì)價(jià)值視為下一個(gè)重要的里程碑,并強(qiáng)調(diào)AI必須實(shí)現(xiàn)商業(yè)成果,同時(shí)開(kāi)展自主研究。
Pachocki預(yù)測(cè),到本世紀(jì)末,AI在自主研究方面將取得實(shí)質(zhì)性進(jìn)展。他甚至表示,今年內(nèi)就有可能出現(xiàn)近乎自主的軟件開(kāi)發(fā)系統(tǒng),這將進(jìn)一步推動(dòng)AI技術(shù)的邊界。