技術(shù) AI大模型

李飛飛與World Labs的3D AI革命：從單圖到沉浸式3D世界的跨越

第一電動永娟 2024-12-04 15:06

12 月 3 日，在人工智能領(lǐng)域，World Labs首席執(zhí)行官李飛飛博士突然宣布了一項突破性進展：一個能夠從單張圖像生成完整3D世界的AI系統(tǒng)。這一系統(tǒng)的核心在于其生成的3D世界不僅具有交互性，而且遵循基本的物理幾何規(guī)則。

圖片來源于：量子位

▍3D世界生成：從圖像到沉浸式體驗

World Labs的AI系統(tǒng)通過單張輸入圖像生成一個完全交互式的3D世界，支持攝像機移動、深景控制、光影調(diào)整及物體插入等操作。與傳統(tǒng)AI模型著眼于像素預(yù)測不同，這套系統(tǒng)直接預(yù)測并生成3D幾何結(jié)構(gòu)。這意味著場景在用戶改變視角或重新審視時依然保持一致，解決了以往模型缺乏持久性和穩(wěn)定性的缺陷。

用戶可以通過瀏覽器實時探索生成的3D場景，如同玩游戲般直觀自由。從淺景深到希區(qū)柯克變焦等專業(yè)攝像效果，該技術(shù)將攝影級別的操作融入生成式AI系統(tǒng)，顯著提升了交互體驗。此外，系統(tǒng)還能動態(tài)調(diào)整光照、修改物體形狀及插入新對象，為創(chuàng)作者提供了前所未有的工具。目前不足在于交互的邊界范圍很窄，活動范圍還不夠。

圖片來源于World Labs X官方

▍技術(shù)亮點：

l 實時瀏覽器渲染：用戶可以直接在瀏覽器中探索生成的3D場景，實現(xiàn)類似電子游戲的自由視角控制。

l 專業(yè)攝影效果：支持淺景深、搖鏡頭變焦等3D攝像機效果。

l 深度感知：通過深度圖技術(shù)，精確呈現(xiàn)場景中物體與攝像機的距離關(guān)系。

l 場景交互：支持改變光照、修改幾何形狀，以及插入新對象等功能。

l 創(chuàng)意整合：與文本生成圖片等AI工具結(jié)合，支持藝術(shù)創(chuàng)作和工作流優(yōu)化。

此外，之前大多數(shù)生成模型預(yù)測的是像素，而這個AI系統(tǒng)直接預(yù)測3D場景。所以場景在你移開視線再回來時不會發(fā)生變化。官方則表示“這僅僅是3D原生生成AI未來的一個縮影”：“我們正在努力盡快將這項技術(shù)交到用戶手中！”

圖片來源于World Labs X官方

▍從隱身到聚焦：World Labs的發(fā)展路徑

World Labs成立于2024年1月，是李飛飛首次創(chuàng)業(yè)創(chuàng)立的空間智能公司，專注于構(gòu)建“大世界模型”（LWM）來感知、生成3D世界并與之交互。公司在2024年9月正式結(jié)束隱身狀態(tài)，并宣布過去兩輪融資共籌得2.3億美元，估值達10億美元，投資方包括a16z、英偉達、領(lǐng)英創(chuàng)始人Reid Hoffman、谷歌前CEO Eric Schmidt及AI教父Geoffery Hinton等。預(yù)計公司將在2025年推出首款產(chǎn)品，從世界模型的生成開始逐步支持AR技術(shù)、機器人技術(shù)及自動駕駛等領(lǐng)域。

圖片來源：量子位

李飛飛在《經(jīng)濟人》的內(nèi)容也強調(diào)了“計算機要想擁有人類的空間智能，就需要能夠模擬世界、推理事物和地點，并在時間和三維空間中互動。簡而言之，我們需要從大型語言模型轉(zhuǎn)向大型世界模型。”

▍從2D到3D：定義生成式AI的新方向

如果說Stable Diffusion 是 2D 快照。Sora 是 2D + 時間快照。那么World Labs 是一個 3D、完全沉浸式快照。在生成式 AI 快速發(fā)展的今天，能夠從單張圖像生成完整 3D 世界的 AI 系統(tǒng)。

這一突破式創(chuàng)新超越了現(xiàn)有生成式AI模型的控制力與一致性局限，為創(chuàng)作者提供了更多可能性。正如李飛飛在《經(jīng)濟人》文章中所強調(diào)的，“從大型語言模型轉(zhuǎn)向大型世界模型是AI發(fā)展的下一個前沿，也是以人為本的人工智能的核心所在。”

圖片來源：量子位

▍技術(shù)應(yīng)用場景：3D多領(lǐng)域場景

World Labs的技術(shù)不僅在技術(shù)層面上實現(xiàn)了突破，也展現(xiàn)了其在數(shù)字創(chuàng)作領(lǐng)域的廣泛應(yīng)用潛力。例如，團隊成功將愛德華·霍普的名畫《夜游者》轉(zhuǎn)化為一個可探索的3D環(huán)境，為藝術(shù)創(chuàng)作提供了全新視角和工具。

盡管目前生成3D場景的活動范圍和交互邊界仍有限，但李飛飛團隊表示，這僅是3D原生生成AI未來的縮影。隨著技術(shù)的進一步發(fā)展，World Labs的AI系統(tǒng)有望在影視制作、游戲設(shè)計、AR/VR體驗、建筑設(shè)計等領(lǐng)域產(chǎn)生深遠影響。目前該技術(shù)正在向部分創(chuàng)作者開放測試，有望為數(shù)字創(chuàng)作帶來革命性的改變。