技術(shù) Open AI

SORA真的要來了，同行都準(zhǔn)備好了嗎？

第一電動(dòng)永娟 2024-12-05 16:03

美國(guó)人工智能初創(chuàng)公司OpenAI于今日宣布，將從周四太平洋時(shí)間早晨10點(diǎn)（北京時(shí)間周五凌晨2點(diǎn)）開始，開啟為期12天的創(chuàng)新發(fā)布周期。公司在推文中寫道：“12天、12場(chǎng)直播，一堆大大小小的新東西，OpenAI的12天活動(dòng)期從明天開始?！?/p>

OpenAI的首席執(zhí)行官山姆·奧特曼（Sam Altman）透露，這次活動(dòng)將以每日一場(chǎng)直播的形式展開，每個(gè)工作日發(fā)布一個(gè)新產(chǎn)品或樣品。據(jù)科技媒體 The Verge 援引知情人士透露，這些新產(chǎn)品中包含用戶們期待已久的文字轉(zhuǎn)視頻工具 Sora 和一款新的推理模型。前 OpenAI 首席技術(shù)官 Mira Murati 在 3 月份告訴?《華爾街日?qǐng)?bào)》，Sora 將于今年年底上市。

除此之外，OpenAI 可能會(huì)給 ChatGPT 語(yǔ)音模式增加一個(gè)「圣誕老人」語(yǔ)音，已經(jīng)有用戶在代碼里發(fā)現(xiàn)語(yǔ)音模式的按鈕可以變成雪花的形狀。

圖片來源于山姆·奧特曼 X官方

▍核心亮點(diǎn)：可能發(fā)布的產(chǎn)品及功能

根據(jù)熟悉OpenAI內(nèi)部計(jì)劃的消息人士及外界推測(cè)，本次活動(dòng)可能推出以下產(chǎn)品和功能：

l Sora：文本轉(zhuǎn)視頻工具，支持高質(zhì)量視頻生成，為創(chuàng)作者帶來新可能性。

l O1推理模型：增強(qiáng)版推理模型，或成為GPT-4的繼任者。

l 新圖像模型：可能替代現(xiàn)有的DALL-E技術(shù)，進(jìn)一步提升圖像生成能力。

l 語(yǔ)音模式增強(qiáng)：包括高品質(zhì)語(yǔ)音合成和更自然的語(yǔ)音交互功能。

l 開發(fā)者工具升級(jí)：通過改進(jìn)API接口，拓展AI在軟件開發(fā)中的應(yīng)用。

l 全新代理框架：“操作員”框架，或支持用戶在日常操作中使用AI進(jìn)行自動(dòng)化管理。

圖片來源于網(wǎng)絡(luò)

▍Sora發(fā)布：開創(chuàng)AI內(nèi)容創(chuàng)作新范式

綜合 OpenAI 的創(chuàng)新歷史和用戶反饋，此次活動(dòng)的亮點(diǎn)之一就是Sora的推出。這款文本轉(zhuǎn)視頻工具此前已進(jìn)入Alpha測(cè)試階段，并受到數(shù)百名藝術(shù)家的試用。盡管Sora此前因測(cè)試過程中的版權(quán)爭(zhēng)議而受到一些批評(píng)，其正式發(fā)布仍備受關(guān)注。

Sora通過結(jié)合圖像、音頻和動(dòng)態(tài)場(chǎng)景的生成能力，Sora為藝術(shù)創(chuàng)作者、教育機(jī)構(gòu)和影視制作團(tuán)隊(duì)提供了全新的工具，可生成長(zhǎng)達(dá)1分鐘的高清視頻，將顯著提升了內(nèi)容制作的效率與創(chuàng)意空間。

▍更多生成式AI視頻工具：是否準(zhǔn)備好

自從今年SORA發(fā)布之后，就在生成式AI視頻賽道產(chǎn)生了很大的波瀾，甚至不斷有AI視頻工具在發(fā)布新功能時(shí)要和SORA產(chǎn)生關(guān)聯(lián)。Sora在生成長(zhǎng)度、多樣性和技術(shù)創(chuàng)新方面具有顯著優(yōu)勢(shì)，促使其他工具之后在特定功能和應(yīng)用場(chǎng)景中不斷增加自己獨(dú)特的優(yōu)勢(shì)來迎接SORA帶來的沖擊。

目前主流的AI視頻工具：

1. 谷歌 Veo

谷歌于12月3日推出了Veo，宣稱是谷歌版“SORA”，官方稱其是谷歌最強(qiáng)大的視頻生成模型，生成的視頻更精準(zhǔn)、更逼真。從放出的視頻來看，圖生視頻和文生視頻的效果都很高清并且細(xì)節(jié)上處理的很細(xì)致。

圖片來源于谷歌

2. Meta Movie Gen

Meta于10月5日發(fā)布了Movie Gen，這是一款A(yù)I視頻生成工具，號(hào)稱META版Sora，Sora有的它都有，可創(chuàng)建不同寬高比的高清長(zhǎng)視頻，支持1080p、16秒、每秒16幀。Sora沒有的它還有，能生成配套的背景音樂和音效、根據(jù)文本指令編輯視頻，以及根據(jù)用戶上傳的圖像生成個(gè)性化視頻。Meta表示，這是“迄今為止最先進(jìn)的媒體基礎(chǔ)模型（Media Foundation Models）”。只需一句“把燈籠變成飛向空中的泡泡”，就能替換視頻中的物體，同時(shí)透明的泡泡正確反射了背景環(huán)境。與Sora只有演示和官網(wǎng)博客不同，Meta在92頁(yè)的論文中把架構(gòu)、訓(xùn)練細(xì)節(jié)都公開了。

3. Adobe Firefly Video Model

Adobe于10月宣布即將發(fā)布其生成式AI視頻創(chuàng)作工具Firefly Video Model。將與今年早些時(shí)候推出的OpenAI的Sora競(jìng)爭(zhēng)，該工具可根據(jù)文本描述和靜態(tài)圖像生成短視頻片段，并提供可定制的攝像機(jī)控制。Adobe強(qiáng)調(diào)，F(xiàn)irefly經(jīng)過訓(xùn)練，可避免版權(quán)問題。

雖然Adobe目前沒有宣布任何正式客戶，但百事可樂旗下的佳得樂公司將在一個(gè)網(wǎng)站上使用它的圖像生成模型為客戶定制瓶子，美泰公司也一直在使用Adobe工具輔助設(shè)計(jì)其芭比娃娃系列的包裝。

4. Runway Gen-3

Runway的Gen-3模型可以根據(jù)文本、圖像或視頻提示生成短視頻片段，支持多種風(fēng)格和場(chǎng)景。該模型自主學(xué)習(xí)3D動(dòng)態(tài)，能夠生成照片級(jí)真實(shí)的視頻，特別適用于藝術(shù)家的創(chuàng)作過程。是目前用戶使用最廣泛的主流AI工具，目前Runway還推出相機(jī)控制（Camera Control）功能，現(xiàn)在視頻能以任意角度運(yùn)鏡，模擬像人拍攝一樣的手法

5. Pika

Pika Labs推出的Pika工具允許用戶通過文本或圖像提示生成3D動(dòng)畫、動(dòng)漫、卡通或電影風(fēng)格的視頻。Pika 1.5版本引入了"Pikaffects"特效庫(kù)，增強(qiáng)了視頻內(nèi)容的專業(yè)質(zhì)感和創(chuàng)意效果。

6. PixVerse

愛詩(shī)科技的PixVerse支持文本生成視頻、圖片轉(zhuǎn)視頻等功能，用戶可以快速制作短視頻片段。PixVerse V2版本采用Diffusion+Transformer架構(gòu)，提升了視頻的分辨率、細(xì)節(jié)和動(dòng)作幅度。

7. 字節(jié)跳動(dòng)的即夢(mèng)AI

字節(jié)跳動(dòng)的即夢(mèng)AI應(yīng)用能夠根據(jù)文本提示生成視頻，提供訂閱服務(wù)，用戶每月可生成約168個(gè)AI視頻。該應(yīng)用由字節(jié)跳動(dòng)旗下的Faceu Technology開發(fā)，已在多個(gè)平臺(tái)上線。但目前在寫實(shí)畫面上還是相對(duì)弱一些還不能和RUNWAY的效果相比。

8. 智譜AI的清影

智譜AI的視頻模型清影不但支持生成5秒和10秒的視頻，分辨率可達(dá)768P，并支持16幀生成能力。背后的CogVideoX模型更懂復(fù)雜prompt，能夠保持人物等主體的連貫性，效果更逼真。該模型在11月的新版本還集成了CogSound音效模型，可生成與畫面匹配的音效。如此一來，AI已經(jīng)具備了制作像上面這樣微電影（或短視頻）的全要素，而且在操作上也是非常簡(jiǎn)單。該功能在SORA上甚至還沒有實(shí)現(xiàn)。

9. Luma AI的Dream Machine

Luma AI在今天發(fā)布了最新的視頻生成模型Luma Ray 2，同樣和SORA一樣最高支持生成1分鐘的一致性視頻，營(yíng)銷點(diǎn)也是新LUMA版SORA，生成速度只需10秒。本次Luma AI的新模型，已被亞馬遜Amazon Bedrock平臺(tái)搶先集成。從效果上看也是非常震撼，嘴唇的紋路、頭發(fā)絲的質(zhì)感、一根根睫毛、甚至是皮膚表皮細(xì)胞都很清晰。

圖片來源于LUMA X官方

10. Stable Diffusion

Stable Diffusion是Stability AI推出的開源文本生成圖像模型，廣泛應(yīng)用于藝術(shù)創(chuàng)作和設(shè)計(jì)領(lǐng)域。通過擴(kuò)散模型，Stable Diffusion能夠生成高質(zhì)量、風(fēng)格多樣的圖像，但在視頻生成SVD目前能力還比較有限，主要還是在圖片生成和控制領(lǐng)域。

11. VIDO

VIDO是生數(shù)科技推出的文生視頻模型，支持文本生成視頻和圖片轉(zhuǎn)視頻功能，提供寫實(shí)和動(dòng)畫兩種風(fēng)格。VIDO采用Diffusion Transformer架構(gòu)，能夠生成4秒至8秒的視頻片段，生成速度較快，界面設(shè)計(jì)具有電影放映機(jī)的風(fēng)格。

其在11月增加了多主體一致性的功能，這個(gè)功能支持上傳1～3張參照，來實(shí)現(xiàn)對(duì)多主體的控制?？梢愿鶕?jù)明確地點(diǎn)、人物、行為、形象，就能實(shí)現(xiàn)精準(zhǔn)控制和編輯。未來“只要上傳一張角色圖+一張環(huán)境圖”就可以創(chuàng)作連續(xù)的視頻故事。

圖片來源于VIDU X官方

12. 騰訊混元大模型

騰訊混元大模型是騰訊推出的多模態(tài)AI模型，其在12月3日開源了所有功能并宣稱為騰訊版SORA，130億參數(shù)，成為目前參數(shù)量最大的開源視頻生成模型。官方描述其有超寫實(shí)畫質(zhì)，模型生成的視頻內(nèi)容具備高清質(zhì)感、真實(shí)感，可用于工業(yè)級(jí)商業(yè)場(chǎng)景例如廣告宣傳、創(chuàng)意視頻生成等商業(yè)應(yīng)用。目前用戶真實(shí)反饋還不是很多。

13. 可靈

可靈是快手推出的文生視頻大模型，能夠生成大幅度合理運(yùn)動(dòng)，模擬物理世界特性，生成的視頻分辨率達(dá)1080p，時(shí)長(zhǎng)最長(zhǎng)可達(dá)2分鐘。并在最新的1.5版本增加了運(yùn)動(dòng)筆刷功能和RUNWAY的筆刷功能類似?？伸`采用類似Sora的DiT結(jié)構(gòu)，對(duì)模型中的隱空間編/解碼、時(shí)序建模等模塊進(jìn)行升維，實(shí)現(xiàn)部分絕對(duì)真實(shí)世界觀的數(shù)據(jù)支持。是目前國(guó)內(nèi)用戶反饋相對(duì)比較高的AI視頻生成工具。

圖片來源：量子位

在激烈的行業(yè)競(jìng)爭(zhēng)背景下，不難看出大部分公司都在更新產(chǎn)品的功能來突出優(yōu)勢(shì)增加產(chǎn)品力，但似乎很多公司被束縛在SORA的框架里，更新功能也要和SORA產(chǎn)生關(guān)聯(lián)來證明自己的產(chǎn)品競(jìng)爭(zhēng)力，這次SORA似乎真的要來了，是不是可以真實(shí)的PK一下了。

來源：第一電動(dòng)網(wǎng)

作者：永娟

本文地址：http://www.healthsupplement-reviews.com/news/jishu/256278

返回第一電動(dòng)網(wǎng)首頁(yè) >

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com（#替換成@）刪除。