1. 首頁(yè)
  2. 資訊
  3. 技術(shù)
  4. SORA真的要來(lái)了,同行都準(zhǔn)備好了嗎?

SORA真的要來(lái)了,同行都準(zhǔn)備好了嗎?

第一電動(dòng)永娟

美國(guó)人工智能初創(chuàng)公司OpenAI于今日宣布,將從周四太平洋時(shí)間早晨10點(diǎn)(北京時(shí)間周五凌晨2點(diǎn))開始,開啟為期12天的創(chuàng)新發(fā)布周期。公司在推文中寫道:“12天、12場(chǎng)直播,一堆大大小小的新東西,OpenAI的12天活動(dòng)期從明天開始?!?/p>

image.png

OpenAI的首席執(zhí)行官山姆·奧特曼(Sam Altman)透露,這次活動(dòng)將以每日一場(chǎng)直播的形式展開,每個(gè)工作日發(fā)布一個(gè)新產(chǎn)品或樣品。據(jù)科技媒體 The Verge 援引知情人士透露,這些新產(chǎn)品中包含用戶們期待已久的文字轉(zhuǎn)視頻工具 Sora 和一款新的推理模型。前 OpenAI 首席技術(shù)官 Mira Murati 在 3 月份告訴?《華爾街日?qǐng)?bào)》  ,Sora 將于今年年底上市。

除此之外,OpenAI 可能會(huì)給 ChatGPT 語(yǔ)音模式增加一個(gè)「圣誕老人」語(yǔ)音,已經(jīng)有用戶在代碼里發(fā)現(xiàn)語(yǔ)音模式的按鈕可以變成雪花的形狀。

image.png

圖片來(lái)源于山姆·奧特曼 X官方

核心亮點(diǎn):可能發(fā)布的產(chǎn)品及功能

根據(jù)熟悉OpenAI內(nèi)部計(jì)劃的消息人士及外界推測(cè),本次活動(dòng)可能推出以下產(chǎn)品和功能:

l Sora:文本轉(zhuǎn)視頻工具,支持高質(zhì)量視頻生成,為創(chuàng)作者帶來(lái)新可能性。

l O1推理模型:增強(qiáng)版推理模型,或成為GPT-4的繼任者。

l 新圖像模型:可能替代現(xiàn)有的DALL-E技術(shù),進(jìn)一步提升圖像生成能力。

l 語(yǔ)音模式增強(qiáng):包括高品質(zhì)語(yǔ)音合成和更自然的語(yǔ)音交互功能。

l 開發(fā)者工具升級(jí):通過(guò)改進(jìn)API接口,拓展AI在軟件開發(fā)中的應(yīng)用。

l 全新代理框架:“操作員”框架,或支持用戶在日常操作中使用AI進(jìn)行自動(dòng)化管理。

image.png

圖片來(lái)源于網(wǎng)絡(luò) 

Sora發(fā)布:開創(chuàng)AI內(nèi)容創(chuàng)作新范式

綜合 OpenAI 的創(chuàng)新歷史和用戶反饋,此次活動(dòng)的亮點(diǎn)之一就是Sora的推出。這款文本轉(zhuǎn)視頻工具此前已進(jìn)入Alpha測(cè)試階段,并受到數(shù)百名藝術(shù)家的試用。盡管Sora此前因測(cè)試過(guò)程中的版權(quán)爭(zhēng)議而受到一些批評(píng),其正式發(fā)布仍備受關(guān)注。

Sora通過(guò)結(jié)合圖像、音頻和動(dòng)態(tài)場(chǎng)景的生成能力,Sora為藝術(shù)創(chuàng)作者、教育機(jī)構(gòu)和影視制作團(tuán)隊(duì)提供了全新的工具,可生成長(zhǎng)達(dá)1分鐘的高清視頻,將顯著提升了內(nèi)容制作的效率與創(chuàng)意空間。

更多生成式AI視頻工具:是否準(zhǔn)備好

自從今年SORA發(fā)布之后,就在生成式AI視頻賽道產(chǎn)生了很大的波瀾,甚至不斷有AI視頻工具在發(fā)布新功能時(shí)要和SORA產(chǎn)生關(guān)聯(lián)。Sora在生成長(zhǎng)度、多樣性和技術(shù)創(chuàng)新方面具有顯著優(yōu)勢(shì),促使其他工具之后在特定功能和應(yīng)用場(chǎng)景中不斷增加自己獨(dú)特的優(yōu)勢(shì)來(lái)迎接SORA帶來(lái)的沖擊。

目前主流的AI視頻工具:

1. 谷歌 Veo

谷歌于12月3日推出了Veo,宣稱是谷歌版“SORA”,官方稱其是谷歌最強(qiáng)大的視頻生成模型,生成的視頻更精準(zhǔn)、更逼真。從放出的視頻來(lái)看,圖生視頻和文生視頻的效果都很高清并且細(xì)節(jié)上處理的很細(xì)致。 

image.png

圖片來(lái)源于谷歌

2. Meta Movie Gen

Meta于10月5日發(fā)布了Movie Gen,這是一款A(yù)I視頻生成工具,號(hào)稱META版Sora,Sora有的它都有,可創(chuàng)建不同寬高比的高清長(zhǎng)視頻,支持1080p、16秒、每秒16幀。Sora沒有的它還有,能生成配套的背景音樂(lè)和音效、根據(jù)文本指令編輯視頻,以及根據(jù)用戶上傳的圖像生成個(gè)性化視頻。Meta表示,這是“迄今為止最先進(jìn)的媒體基礎(chǔ)模型(Media Foundation Models)”。只需一句“把燈籠變成飛向空中的泡泡”,就能替換視頻中的物體,同時(shí)透明的泡泡正確反射了背景環(huán)境。與Sora只有演示和官網(wǎng)博客不同,Meta在92頁(yè)的論文中把架構(gòu)、訓(xùn)練細(xì)節(jié)都公開了。

3. Adobe Firefly Video Model

Adobe于10月宣布即將發(fā)布其生成式AI視頻創(chuàng)作工具Firefly Video Model。將與今年早些時(shí)候推出的OpenAI的Sora競(jìng)爭(zhēng),該工具可根據(jù)文本描述和靜態(tài)圖像生成短視頻片段,并提供可定制的攝像機(jī)控制。Adobe強(qiáng)調(diào),F(xiàn)irefly經(jīng)過(guò)訓(xùn)練,可避免版權(quán)問(wèn)題。

雖然Adobe目前沒有宣布任何正式客戶,但百事可樂(lè)旗下的佳得樂(lè)公司將在一個(gè)網(wǎng)站上使用它的圖像生成模型為客戶定制瓶子,美泰公司也一直在使用Adobe工具輔助設(shè)計(jì)其芭比娃娃系列的包裝。

4. Runway Gen-3

Runway的Gen-3模型可以根據(jù)文本、圖像或視頻提示生成短視頻片段,支持多種風(fēng)格和場(chǎng)景。該模型自主學(xué)習(xí)3D動(dòng)態(tài),能夠生成照片級(jí)真實(shí)的視頻,特別適用于藝術(shù)家的創(chuàng)作過(guò)程。是目前用戶使用最廣泛的主流AI工具,目前Runway還推出相機(jī)控制(Camera Control)功能,現(xiàn)在視頻能以任意角度運(yùn)鏡,模擬像人拍攝一樣的手法

5. Pika

Pika Labs推出的Pika工具允許用戶通過(guò)文本或圖像提示生成3D動(dòng)畫、動(dòng)漫、卡通或電影風(fēng)格的視頻。Pika 1.5版本引入了"Pikaffects"特效庫(kù),增強(qiáng)了視頻內(nèi)容的專業(yè)質(zhì)感和創(chuàng)意效果。

6. PixVerse

愛詩(shī)科技的PixVerse支持文本生成視頻、圖片轉(zhuǎn)視頻等功能,用戶可以快速制作短視頻片段。PixVerse V2版本采用Diffusion+Transformer架構(gòu),提升了視頻的分辨率、細(xì)節(jié)和動(dòng)作幅度。

7. 字節(jié)跳動(dòng)的即夢(mèng)AI

字節(jié)跳動(dòng)的即夢(mèng)AI應(yīng)用能夠根據(jù)文本提示生成視頻,提供訂閱服務(wù),用戶每月可生成約168個(gè)AI視頻。該應(yīng)用由字節(jié)跳動(dòng)旗下的Faceu Technology開發(fā),已在多個(gè)平臺(tái)上線。但目前在寫實(shí)畫面上還是相對(duì)弱一些還不能和RUNWAY的效果相比。

8. 智譜AI的清影

智譜AI的視頻模型清影不但支持生成5秒和10秒的視頻,分辨率可達(dá)768P,并支持16幀生成能力。背后的CogVideoX模型更懂復(fù)雜prompt,能夠保持人物等主體的連貫性,效果更逼真。該模型在11月的新版本還集成了CogSound音效模型,可生成與畫面匹配的音效。如此一來(lái),AI已經(jīng)具備了制作像上面這樣微電影(或短視頻)的全要素,而且在操作上也是非常簡(jiǎn)單。該功能在SORA上甚至還沒有實(shí)現(xiàn)。

9. Luma AI的Dream Machine

Luma AI在今天發(fā)布了最新的視頻生成模型Luma Ray 2,同樣和SORA一樣最高支持生成1分鐘的一致性視頻,營(yíng)銷點(diǎn)也是新LUMA版SORA,生成速度只需10秒。本次Luma AI的新模型,已被亞馬遜Amazon Bedrock平臺(tái)搶先集成。從效果上看也是非常震撼,嘴唇的紋路、頭發(fā)絲的質(zhì)感、一根根睫毛、甚至是皮膚表皮細(xì)胞都很清晰。

image.png

圖片來(lái)源于LUMA X官方 

10. Stable Diffusion

Stable Diffusion是Stability AI推出的開源文本生成圖像模型,廣泛應(yīng)用于藝術(shù)創(chuàng)作和設(shè)計(jì)領(lǐng)域。通過(guò)擴(kuò)散模型,Stable Diffusion能夠生成高質(zhì)量、風(fēng)格多樣的圖像,但在視頻生成SVD目前能力還比較有限,主要還是在圖片生成和控制領(lǐng)域。

11. VIDO

VIDO是生數(shù)科技推出的文生視頻模型,支持文本生成視頻和圖片轉(zhuǎn)視頻功能,提供寫實(shí)和動(dòng)畫兩種風(fēng)格。VIDO采用Diffusion Transformer架構(gòu),能夠生成4秒至8秒的視頻片段,生成速度較快,界面設(shè)計(jì)具有電影放映機(jī)的風(fēng)格。

其在11月增加了多主體一致性的功能,這個(gè)功能支持上傳1~3張參照,來(lái)實(shí)現(xiàn)對(duì)多主體的控制??梢愿鶕?jù)明確地點(diǎn)、人物、行為、形象,就能實(shí)現(xiàn)精準(zhǔn)控制和編輯。未來(lái)“只要上傳一張角色圖+一張環(huán)境圖”就可以創(chuàng)作連續(xù)的視頻故事。

image.png

圖片來(lái)源于VIDU X官方

12. 騰訊混元大模型

騰訊混元大模型是騰訊推出的多模態(tài)AI模型,其在12月3日開源了所有功能并宣稱為騰訊版SORA,130億參數(shù),成為目前參數(shù)量最大的開源視頻生成模型。官方描述其有超寫實(shí)畫質(zhì),模型生成的視頻內(nèi)容具備高清質(zhì)感、真實(shí)感,可用于工業(yè)級(jí)商業(yè)場(chǎng)景例如廣告宣傳、創(chuàng)意視頻生成等商業(yè)應(yīng)用。目前用戶真實(shí)反饋還不是很多。

13. 可靈

可靈是快手推出的文生視頻大模型,能夠生成大幅度合理運(yùn)動(dòng),模擬物理世界特性,生成的視頻分辨率達(dá)1080p,時(shí)長(zhǎng)最長(zhǎng)可達(dá)2分鐘。并在最新的1.5版本增加了運(yùn)動(dòng)筆刷功能和RUNWAY的筆刷功能類似??伸`采用類似Sora的DiT結(jié)構(gòu),對(duì)模型中的隱空間編/解碼、時(shí)序建模等模塊進(jìn)行升維,實(shí)現(xiàn)部分絕對(duì)真實(shí)世界觀的數(shù)據(jù)支持。是目前國(guó)內(nèi)用戶反饋相對(duì)比較高的AI視頻生成工具。

image.png

圖片來(lái)源:量子位

在激烈的行業(yè)競(jìng)爭(zhēng)背景下,不難看出大部分公司都在更新產(chǎn)品的功能來(lái)突出優(yōu)勢(shì)增加產(chǎn)品力,但似乎很多公司被束縛在SORA的框架里,更新功能也要和SORA產(chǎn)生關(guān)聯(lián)來(lái)證明自己的產(chǎn)品競(jìng)爭(zhēng)力,這次SORA似乎真的要來(lái)了,是不是可以真實(shí)的PK一下了。

來(lái)源:第一電動(dòng)網(wǎng)

作者:永娟

本文地址:http://healthsupplement-reviews.com/news/jishu/256278

返回第一電動(dòng)網(wǎng)首頁(yè) >

收藏
85
  • 分享到:
發(fā)表評(píng)論
新聞推薦
熱文榜
日排行
周排行
第一電動(dòng)網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價(jià)信息
已經(jīng)成功提交我們稍后會(huì)聯(lián)系您進(jìn)行報(bào)價(jià)!

第一電動(dòng)網(wǎng)
Hello world!
-->