Sora爆火馬斯克急了！特斯拉才擁有最好的視頻生成技術(shù)

2024-02-20 09:43:17 來源：快科技評論：0 [收藏] [評論]

導(dǎo)讀：　　這兩天有沒有被OpenAI的新成果Sora刷屏?　　熙熙攘攘的龍年春節(jié)，人物眾多，同時各有各的行為：　　雨后的東京街頭，光影和反射都處理得很到位：　　甚至是超近景的蜥蜴，細(xì)節(jié)拉滿：　　以上均來自O(shè)penAI首個

　　這兩天有沒有被OpenAI的新成果Sora刷屏?

　　熙熙攘攘的龍年春節(jié)，人物眾多，同時各有各的行為：

　　雨后的東京街頭，光影和反射都處理得很到位：

　　甚至是超近景的蜥蜴，細(xì)節(jié)拉滿：

　　以上均來自O(shè)penAI首個視頻生成模型Sora。

　　只要輸入提示詞，就能生成1分鐘的高清視頻，已經(jīng)被看作是改寫整個視頻生成領(lǐng)域的新王炸技術(shù)。

　　這不僅轟動了學(xué)術(shù)圈，還讓同為科技圈的老馬坐不住了。

　　在推特上直言：特斯拉擁有世界上最好的現(xiàn)實世界模擬和視頻生成能力!

　　哎呦，打起來，打起來(doge)。

　　馬斯克回應(yīng)Sora

　　Sora發(fā)布后，效果立刻震驚全網(wǎng)。

　　不過并不像ChatGPT，現(xiàn)在只有少數(shù)人擁有Sora的訪問權(quán)限。

　　但不少人還是想自己玩玩看的，所以O(shè)penAI CEOSam Altman立刻抓住這次展示能力的機(jī)會，發(fā)布Sora后在推特上開始在線接單。

　　只要發(fā)布提示詞并艾特Sam，或者在Sam的推特下回復(fù)，就有可能收到Sora生成好的視頻。

　　這其中認(rèn)真回復(fù)的有之，趁機(jī)搗亂的也有之。

　　狗狗幣圖形設(shè)計師DogeDesigner就回復(fù)了Sam的推特，他給的提示詞是：

　　一個人把一家開源的非盈利公司變成閉源的盈利公司。

　　這描述，你要不直接報Sam身份證號得了(doge)。

　　而馬斯克直接把這條回復(fù)po了出來。

　　一方面他最愛的數(shù)字貨幣就是狗狗幣，在推特上和這位用戶也經(jīng)�；�;而更重要的另一方面，馬斯克和OpenAI有不少過節(jié)。

　　雖然馬斯克是聯(lián)合創(chuàng)始人，但后來被踢出了董事會，并且在OpenAI轉(zhuǎn)變?yōu)橛竞螅啻卧诠_場合批評和指責(zé)OpenAI失去初心，開始逐利。

　　隨后，馬斯克又轉(zhuǎn)發(fā)了一條和OpenAI有關(guān)的內(nèi)容，并配了個帶單片眼鏡的emoji表情，像是在疑惑。

　　這條內(nèi)容是在說Sam擁有一家OpenAI的風(fēng)險投資基金，這家基金截至去年已承諾投資1.75億美元。

　　并且這家基金并沒有由OpenAI來管理，只是“暫時”放在Sam的名下。

　　眾所周知，Sam并不直接擁有OpenAI的股權(quán)，并且把自己通過YC基金對OpenAI投資的間接持有稱為“不重要”，表示自己成立OpenAI就是因為喜歡AI。

　　而這則Sam擁有OpenAI風(fēng)投基金的新聞曝出，馬斯克又表示疑惑，可能想暗指Sam還是想要用OpenAI獲利，并不是之前表現(xiàn)出“淡泊名利”的樣子。

　　本以為馬斯克嘲諷兩條就結(jié)束了，誰知在有用戶發(fā)布對比Sora和特斯拉FSD V12的推特后，馬斯克又上線回復(fù)：

　　特斯拉大概在一年前就能生成真實世界的視頻了，并且精準(zhǔn)符合物理學(xué)。

　　但這并不是很有趣，因為所有的訓(xùn)練數(shù)據(jù)都來自汽車，所以視頻也看起來像來自特斯拉車輛上的攝像頭，盡管這是動態(tài)生成而不是記錄下的世界。

　　那接下來就看看，Sora和特斯拉的能力對比到底如何?

　　Sora是什么

　　Sora，OpenAI的首個視頻生成大模型，或者說是文生視頻大模型。

　　本質(zhì)上是一個擴(kuò)散模型(Diffusion models)，基于不同時長、分辨率和寬高比的視頻和圖像訓(xùn)練得來。

　　官方只淺淺介紹了一些技術(shù)細(xì)節(jié)，其中比較關(guān)鍵的有patch、潛(latent)，以及訓(xùn)練路線上的選擇。

　　對應(yīng)語言大模型中的token，OpenAI創(chuàng)造了patch這一概念，模型可以將視頻壓縮進(jìn)低維潛空間中，并分解為Spacetime latent patches，統(tǒng)一不同的視覺數(shù)據(jù)表現(xiàn)形式。

　　也就是說，正如token可以簡化、統(tǒng)一不同的自然語言，patch可以統(tǒng)一不同分辨率、時長和寬高比的視頻和圖像。

　　而這個視頻壓縮網(wǎng)絡(luò)也是OpenAI特意訓(xùn)練的，用來降低視覺數(shù)據(jù)維度，并且訓(xùn)練也是基于該網(wǎng)絡(luò)進(jìn)行，可以減少計算量的壓力。

　　并且，由于Sora的訓(xùn)練直接在視頻數(shù)據(jù)的原始尺寸上進(jìn)行，和其他模型不同，所以在輸出結(jié)果上，Sora也能hold住各種分辨率、時長、寬高比、視角等等的視頻。

　　同時還優(yōu)化了構(gòu)圖和布局。比如業(yè)內(nèi)同類型模型都會盲目裁剪輸出視頻為正方形，造成主題元素只能部分展示，但Sora可以捕捉完整的場景。

　　另外，Sora的技術(shù)還包含OpenAI之前在DALL·E 3、擴(kuò)散型Transformer方面的技術(shù)積累和突破。

　　最終展示出的Sora，就不僅能夠理解提示詞中的要求，還了解這些物體在物理世界中的存在方式。

　　能理解紙飛機(jī)在林中穿過時會發(fā)生碰撞，同時光影也會發(fā)生變化。

　　一群紙飛機(jī)在茂密的叢林中翩翩起舞，在樹林中穿梭，就像候鳥一樣。

　　同時在單個視頻中創(chuàng)建多個鏡頭，并靠對語言的深入理解準(zhǔn)確地解釋提示詞，保留角色和視覺風(fēng)格。

　　美麗、白雪皚皚的東京熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道，跟隨幾個人享受美麗的雪天并在附近的攤位購物。絢麗的櫻花花瓣隨著雪花隨風(fēng)飄揚。

　　不過，Sora現(xiàn)在并不完美。OpenAI指出它可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理，并且可能無法理解因果關(guān)系。

　　例如“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”，狼的數(shù)量會變化，一些憑空出現(xiàn)或消失。

　　還可能混淆提示的空間細(xì)節(jié)，例如混淆左右，并且可能難以精確描述隨著時間推移發(fā)生的事件，例如遵循特定的相機(jī)軌跡。

　　如提示詞“籃球穿過籃筐然后爆炸”中，籃球沒有正確被籃筐阻擋。

　　但這些缺點也沒讓各路大佬吝嗇他們的贊美，比如紐約大學(xué)助理教授、ResNeXt一作謝賽寧直言，Sora將改寫整個視頻生成領(lǐng)域。

　　以上就是Sora當(dāng)前展示出的能力，還有背后的技術(shù)，那么特斯拉的能力又如何?

　　特斯拉的視頻生成能力

　　去年7月，特斯拉自動駕駛軟件總監(jiān)Ashok Elluswamy在CVPR2023的演講中提到，特斯拉正在為其人工智能技術(shù)構(gòu)建一個基礎(chǔ)的世界模型(General World Model)。

　　根據(jù)他的介紹，該模型基于神經(jīng)網(wǎng)絡(luò)，使用過去的視頻和其他事物為條件來預(yù)測未來。

　　該模型不僅能預(yù)測一個攝像頭的視角，而是可以預(yù)測八個攝像頭的視角(展示的是七個)。

　　比如對于同一段視頻，該模型可以預(yù)測本車在“繼續(xù)直行”和“向右變道”兩種情況下，未來周圍環(huán)境的演變。

　　這其實也就是一種基于文本生成不同視頻的能力。

　　同時在不同攝像頭視角之間，周圍車輛的顏色可以保持一致，也就是符合3D物體移動的運動規(guī)律。

　　特斯拉這里還強(qiáng)調(diào)，我們并沒有特意訓(xùn)練它在3D層面的能力，或者要求它表現(xiàn)出3D層面的能力，這意味著神經(jīng)網(wǎng)絡(luò)已經(jīng)理解了深度、運動等物理概念。

　　并且，特斯拉的這個模型不局限于RGB數(shù)據(jù)維度，也可以是語義或者幾何維度。

　　一句話總結(jié)就是，基于過去的視頻，給出車輛行動提示，甚至不給提示，該模型可以預(yù)測不同的未來情況，以及生成視頻。

　　那么既然特斯拉有了如此強(qiáng)大的模型，為什么之前并沒有很多曝光度?

　　因為當(dāng)時介紹時，Ashok直言這還是個“半成品”，關(guān)鍵是它可以提供一個神經(jīng)網(wǎng)絡(luò)模擬器，推演出不同的未來結(jié)果，跟蹤道路中所有移動的物體。

　　并且，在馬斯克這次展示自家視頻生成能力時也坦言稱，目前對于FSD訓(xùn)練的算力還不夠，所以并沒有用模型生成的視頻進(jìn)行訓(xùn)練。

　　不過馬斯克也表示，特斯拉是可以訓(xùn)練的，在今年晚些時候，當(dāng)公司有空余算力了就會開始。

　　到這里其實能看出特斯拉的世界模型和Sora之間的相似點，都是通過視覺讓AI能夠理解甚至模擬真實的物理世界。

　　只不過OpenAI在探索過程中，先放出Sora給世界帶來一點AI震撼;而特斯拉把這個能力運用在了探索自動駕駛，通過純視覺方案，以及視頻數(shù)據(jù)訓(xùn)練出的端到端神經(jīng)網(wǎng)絡(luò)，F(xiàn)SD V12已經(jīng)能比肩老司機(jī)。

　　所以FSD和Sora，不過是AI通過視覺認(rèn)知世界理解世界上的兩個開花結(jié)果，F(xiàn)SD最終用來行動，Sora則是用來生成視頻。

　　殊途同歸。

　　馬斯克的認(rèn)知，確實了不得。

分享到：

責(zé)任編輯：zsz

更多相關(guān)搜索：

新聞
圖片
下載
專題

返回消費頻道

快速導(dǎo)航：新聞立場角度消費服務(wù) 產(chǎn)品

Sora爆火馬斯克急了！特斯拉才擁有最好的視頻生成技術(shù)

網(wǎng)友評論

外資動態(tài)排行

延伸閱讀

最新外資動態(tài)

Sora爆火 馬斯克急了！特斯拉才擁有最好的視頻生成技術(shù)

網(wǎng)友評論

外資動態(tài)排行

延伸閱讀

最新外資動態(tài)

Sora爆火馬斯克急了！特斯拉才擁有最好的視頻生成技術(shù)