新浪科技10月23日下午消息,智源研究院近日宣布原生多模態(tài)世界模型Emu3發(fā)布。該模型實現(xiàn)了視頻、圖像、文本三種模態(tài)的統(tǒng)一理解與生成。據(jù)悉,Emu3只基于下一個token預(yù)測,無需擴散模型或組合式方法,便能把圖像、文本和視頻編碼為一個離散空間,在多模態(tài)混合序列上從頭開始聯(lián)合訓(xùn)練一個Transformer,展現(xiàn)了其在大規(guī)模訓(xùn)練和推理上的潛力。

智源研究院:原生多模態(tài)世界模型Emu3發(fā)布, 實現(xiàn)視頻、圖像、文本大一統(tǒng)  第1張

  在圖像生成、視覺語言理解、視頻生成任務(wù)中,Emu3的表現(xiàn)超過了 SDXL 、LLaVA-1.6、OpenSora等知名開源模型。在圖像生成任務(wù)中,人類評估得分Emu3高于SD-1.5與SDXL;在視覺語言理解任務(wù)中,12 項基準測試的平均得分,Emu3領(lǐng)先于LlaVA-1.6與LlaVA-1.5;在視頻生成任務(wù)中,VBench基準測試得分,Emu3優(yōu)于OpenSora 1.2。

  下一token預(yù)測被認為是通往AGI的可能路徑,但這種范式在語言以外的多模態(tài)任務(wù)中沒有被證明。此前,多模態(tài)生成任務(wù)仍然由擴散模型(例如 Stable Diffusion)所主導(dǎo),而多模態(tài)理解任務(wù)則由組合式的方法(例如 CLIP視覺編碼器與LLM結(jié)合)所主導(dǎo)。智源研究院院長王仲遠表示:“Emu3證明了下一個token預(yù)測能在多模態(tài)任務(wù)中有高性能的表現(xiàn),這為構(gòu)建多模態(tài)AGI提供了廣闊的技術(shù)前景。Emu3有機會將基礎(chǔ)設(shè)施建設(shè)收斂到一條技術(shù)路線上,為大規(guī)模的多模態(tài)訓(xùn)練和推理提供基礎(chǔ),這一簡單的架構(gòu)設(shè)計將利于產(chǎn)業(yè)化。未來,多模態(tài)世界模型將促進機器人大腦、自動駕駛、多模態(tài)對話和推理等場景應(yīng)用。”

  目前,智源研究院已將Emu3的關(guān)鍵技術(shù)和模型開源至國際技術(shù)社區(qū)。相關(guān)技術(shù)從業(yè)者表示:“對于研究人員來說,Emu3意味著出現(xiàn)了一個新的機會,可以通過統(tǒng)一的架構(gòu)探索多模態(tài),無需將復(fù)雜的擴散模型與大語言模型相結(jié)合。這種方法類似于transformer在視覺相關(guān)任務(wù)中的變革性影響?!保ㄎ拿停?/p>