蘋果公司近期在科技領(lǐng)域投下了一枚震撼彈,公開了一項(xiàng)旨在優(yōu)化人形機(jī)器人學(xué)習(xí)效率的創(chuàng)新技術(shù)——PH2D方法。這項(xiàng)技術(shù)巧妙融合了人類教練的專業(yè)指導(dǎo)與機(jī)器人示范者的實(shí)際操作,為機(jī)器人的訓(xùn)練開辟了一條既經(jīng)濟(jì)又高效的全新路徑。
在一篇題為《Humanoid Policy ~ Human Policy》的研究論文中,蘋果詳細(xì)闡述了傳統(tǒng)訓(xùn)練方法的局限性。以往,機(jī)器人示范者雖被廣泛采用,但這一過程不僅耗時(shí)費(fèi)力,還需依賴價(jià)格高昂的遠(yuǎn)程操作數(shù)據(jù)采集設(shè)備,極大地限制了訓(xùn)練的普及與效率。
蘋果的新方法則通過整合人類教練與機(jī)器人示范者的數(shù)據(jù)資源,巧妙地利用了改造后的消費(fèi)級硬件進(jìn)行訓(xùn)練素材的制作。例如,經(jīng)過特別調(diào)整的Apple Vision Pro頭顯,僅需左下角攝像頭即可完成視覺捕捉任務(wù),并結(jié)合ARKit技術(shù),輕松獲取頭部與手部的三維姿態(tài)信息。而另一款改裝后的meta Quest頭顯,則搭載了mini ZED立體攝像頭,成為了一款經(jīng)濟(jì)實(shí)惠的數(shù)據(jù)采集神器。
在訓(xùn)練過程中,人類教練負(fù)責(zé)演示具體的操作動(dòng)作,如抓取、抬升、倒水等,并同步進(jìn)行語音講解。這些精心錄制的視頻經(jīng)過降速處理后,成為了機(jī)器人學(xué)習(xí)的寶貴資料。人類教練的專業(yè)指導(dǎo)與實(shí)際操作演示相結(jié)合,使得機(jī)器人的學(xué)習(xí)過程更加直觀且易于理解。
蘋果還研發(fā)了一款名為“Human-humanoid Action Transformer”(簡稱HAT)的模型。這款模型能夠統(tǒng)一處理來自人類教練與機(jī)器人示范者的多模態(tài)數(shù)據(jù),構(gòu)建了一個(gè)通用的行為策略框架。在多項(xiàng)任務(wù)測試中,HAT模型展現(xiàn)出了比僅依靠機(jī)器人示范更強(qiáng)的適應(yīng)能力與穩(wěn)定性。特別是在執(zhí)行垂直抓取等復(fù)雜任務(wù)時(shí),其表現(xiàn)更是優(yōu)于傳統(tǒng)的單一數(shù)據(jù)源訓(xùn)練方式。
雖然目前蘋果僅展示了相關(guān)的機(jī)器人燈效原型,但業(yè)內(nèi)已有傳聞稱,該公司正在秘密研發(fā)面向消費(fèi)者市場的移動(dòng)式機(jī)器人產(chǎn)品。這些機(jī)器人預(yù)計(jì)能夠勝任家務(wù)協(xié)助等基礎(chǔ)任務(wù),為人們的生活帶來極大的便利。研究結(jié)果顯示,這種結(jié)合式的訓(xùn)練方法不僅顯著降低了訓(xùn)練成本,還使得機(jī)器人在實(shí)際場景中的表現(xiàn)力得到了質(zhì)的飛躍。