皮皮网

【周易起名源码】【原神手游按键精灵源码】【负三的源码是什么意思】Sora引起的模型路線之爭:AI真的有辦法搞懂物理,創造一個「世界模擬器」嗎?

2024-12-27 16:29:03 来源:c http服务器源码

文:Oren君

Sora問世以來,引起除了作為軍火展示之用,型路線令人眼花撩亂的辦法影片,另一個引發討論的搞懂個世點,便是物理OpenAI在技術報告前言提到的:世界模擬器(world simulators)野望。OpenAI還寫到,創造周易起名源码「我們的界模結果表明,擴大影片生成模型規模,擬器是引起朝向建立物理世界通用模擬器一條有前途的道路。」

這段話與它們於2016年發布、型路線一篇討論生成模型處理三維物理空間的辦法論文並置,顯得相當有意思——「OpenAI的搞懂個世核心願望之一是開發演算法和技術,讓電腦能夠理解我們的物理世界。」「生成模型是創造實現這一目標最有前途的方法之一。」

看起來,界模Sora正是OpenAI作為自己八年前這項提問的答辯。

不過許多人並不認可這個答辯的正確性。在Sora生成的眾多影片發布後,紛紛指出其物理錯誤,甚至也有像AI研究大佬楊立昆(Yann LeCun)這般,原神手游按键精灵源码直指生成模型是建立世界模型的死路。

為何世界模型(World Models,OpenAI用的詞是世界模擬器),在AI領域如此重要?又為何Sora已「如此優秀」,狠甩如Pika、Runway這類影片生成AI不止十八條街,還被人看衰?

世界模型作為AGI聖杯

關於世界模型的討論,最著名的是David Ha與Jürgen Schmidhuber撰寫的論文〈Recurrent World Models Facilitate Policy Evolution〉,著重在AI的強化學習。他們提出一個令人著迷的概念:智慧主體能在自身夢中學習嗎?

夢,便是世界模型的明喻。當AI能「完美的」在自己的模擬環境/世界模型中透過訓練來學習,就可將AI在這模型做的決策「反向輸出」到現實世界——而所謂完美,包括對物理定律的掌握。

world_model_comicPhoto Credit: World Models

試想,如果能在世界模型中反覆試錯找到最佳解(包括what if的反事實推理),那麼人類在現實中的各種錯誤將不復存在,也將減省驚人的金錢及時間成本。我們再也不會投錯票、负三的源码是什么意思愛錯人,搞砸職涯規畫,還有⋯⋯人生?聽起來宛如亞當山德勒《命運好好玩》硬科幻版本。這正是人工智慧掌握世界模型,達成AGI的時刻。

世界模型之所以是通往AGI路上難以繞過的檻,是因為目前的大型語言模型(如GPT),都是倚賴海量訓練數據來歸結統計關聯,缺乏主動推理新的因果場景的能力。它們只能推理它們看過的資料。所以,如果語言模型的學習要轉化、建立一個可以用來理解周圍環境的世界模型,因果演繹(尤其是反事實推理)就是其中的基本要素。達到這一點,才可能開啟如人類般自我懷疑、自我探索的下一步。

這也是為什麼Sora一出,掛上世界模擬器一詞時,九天起爆点指标源码引來了AI科學家集火——OpenAI話是不是說得太早?

Sora變身小當家的訣竅

那麼Sora是世界模型嗎?這就要提到Sora最核心的技術,OpenAI所謂的「時空補丁」(spacetime patches)。

image_(101)Photo Credit: OpenAI
藉由時空補丁,Sora可以不損壞素材品質,以生成逼真影像

過去,AI處理和識別圖像時,會將其切分成一系列的「補丁」;放在語言模型中,就類似在處理文本數據時使用的「單詞」。不過圖像、影片的複雜度遠大於文字,因此這種基於補丁的方法,在處理固定大小和長寬比的圖像時會遇到限制,因為需要預先對圖像進行大量處理,如裁剪或縮放。這便會導致品質的下降——經典慘劇如下方的「威爾史密斯吃麵」AI影像難題。

Sora透過將整個影像視為一連串的補丁序列解決了這問題,從而保持影像的原始長寬比和解析度。這樣做的優點在於,使模型能從更接近現實世界的游戏陪玩源码仿比系统下载視覺數據中學習,大大提高其生成的內容品質和準確度。

就像一位廚師使用新鮮食材,而不是用調理包或冷凍蔬菜、組合肉來做菜;當廚師確保每一種食材都保留最初的特性和風味,做出來的東西自然更美味。

時空補丁對影像進行細緻和靈活的處理,更為精確的物理模擬和三維一致性等複雜特徵奠定了基礎。這意味Sora不僅能生成極其逼真的影像,還能確保這些影像遵循現實世界的物理規則——至少,「看起來」是。

生成模型作為世界模型的可能侷限

Sora生成的影片看起來唯妙唯肖,但仍被許多人指出物理錯誤。例如生成的人類考古影片,椅子憑空出現,而且不受重力影響漂浮在空中;老奶奶吹生日蠟燭影片,蠟燭火焰聞風不動;螞蟻地道影片,只有四隻腳而非正確的六隻。

儘管OpenAI在技術報告中自揭其短,提及對複雜物理仍有侷限,但也被許多人認為過於輕描淡寫。這就牽涉到最根本的世界模型路線之爭:生成模型vs預測模型。

Sora兼具擴散(Diffusion)模型及Transformer模型,後者用以識別、找出上下文的時空補丁。有人認為儘管Transformer模型可一定程度操縱自然語言(最好的案例就是ChatGPT),但自然語言無法精確的表達物理定律,所以才會造就Sora影片常常出現的「全局合理,部分荒謬」情形。這也顯示,Transformer模型雖然可以學習局部的上下文,但無法學習全局的上下文。這便是「基於​​機率」的世界模型的限制。

因此,楊立昆才說,「從提示生成大多數看起來逼真的影像,並不表示系統理解物理世界。生成與從世界模型中進行因果預測大不相同,可信影像的空間非常大,而影像生成只需產生一個樣本就成功了。」意思是,看起來逼真的影像的「好球帶」很寬,Sora生成的東西很容易符合一般人預期的影像。

此外,也有人指出,因為不清楚Sora的影片與其訓練資料的差異有多大,所以難以確認Sora的真正實力。

預測模型有機會嗎?

既然Sora往前走是死巷,那活路是什麼?

楊立昆認為,是V-JEPA(Joint Embedding Predictive Architecture,聯合嵌入預測架構,V代表Video),是一種非生成模型,讓AI透過預測影片中缺失或被遮蔽的部分來理解世界。「生成那些後續內容的『抽象描述』,去除與我們可能採取的行動無關的場景細節。它並非生成式的,而是在表示空間中進行預測。」

研究人員讓V-JEPA模型觀看一系列的影片,影片會經過遮蔽處理,透過遮蔽大面積影片內容,要求預測器在只有一小部分影片內容的上下文中填充缺失的部分。要注意的是,填充並非填充實際的畫素,而是表示空間中的抽象描述(如下圖)。

如果說生成模型如Sora是在空白的著色本上「填滿對應現實世界的顏色」,V-JEPA則是預測出空白部分「該是什麼顏色」。

image_(102)Photo Credit: Meta

在Meta的報告中,以人類嬰兒來比喻V-JEPA:嬰兒透過觀察周遭世界學習知識,能直覺理解物體上升必會下降,而並不需要花費數個小時、閱讀大量書籍才能得到這個結論(例如Sora的訓練方式)。

然而,儘管V-JEPA在Meta報告中顯示其理論潛力,我們目前仍未看到成果,所以難以評斷這場世界模型聖杯之戰誰贏誰輸。不過Meta現在以創用CC BY-NC授權釋出V-JEPA模型,來促進人工智慧領域發展,倒是令人產生既視感:當年手機陣營的開放式Android與封閉式iOS之辯。

諷刺的是,許多人認為OpenAI已違背當初自許的造福全人類初衷,成為現今最不開源的AI公司,促使Meta、IBM成立AI聯盟(AI Alliance)對抗,成員還包括Hugging Face、Stability AI、Uber等。

最終,這場聖杯之戰的重點可能不在於誰勝出,而在於這些技術如何被用來促進人類社會進步。這背後也透露了科技鉅子們對未來的想像:是關起門來倚靠規模、海量資料訓練,還是憑藉共享來促進創新?哪一方能安全的發展人工智慧,促進全人類幸福,而不只是創造出一個反烏托邦的未來?是我們應持續思考、關注的課題。

本文經VIVE 後浪潮授權刊登,原文刊登於此
原標題:Sora引起的世界模型路線之爭:AI真的有辦法(以及為什麼要)搞懂物理?

延伸閱讀

  • OpenAI再次拓展我們的視野,如果讓Sora遇上Apple Vision Pro呢?未來將有無限可能
  • OpenAI的Sora很強沒錯,但在AI賽道上,Google開始企圖複製Android的成功戰略
  • Sora推出後阿特曼的「世界幣」兩週漲四倍,但Worldcoin究竟與AI有什麼關聯?

【加入關鍵評論網會員】每天精彩好文直送你的信箱,每週獨享編輯精選、時事精選、藝文週報等特製電子報。還可留言與作者、記者、編輯討論文章內容。立刻點擊免費加入會員!

責任編輯:丁肇九
核稿編輯:王祖鵬