Sora爆火 馬斯克急了!特斯拉才擁有最好的視頻生成技術(shù)
熙熙攘攘的龍年春節(jié),人物眾多,同時各有各的行為:
雨后的東京街頭,光影和反射都處理得很到位:
甚至是超近景的蜥蜴,細(xì)節(jié)拉滿:
以上均來自O(shè)penAI首個視頻生成模型Sora。
只要輸入提示詞,就能生成1分鐘的高清視頻,已經(jīng)被看作是改寫整個視頻生成領(lǐng)域的新王炸技術(shù)。
這不僅轟動了學(xué)術(shù)圈,還讓同為科技圈的老馬坐不住了。
在推特上直言:特斯拉擁有世界上最好的現(xiàn)實世界模擬和視頻生成能力!
哎呦,打起來,打起來(doge)。
馬斯克回應(yīng)Sora
Sora發(fā)布后,效果立刻震驚全網(wǎng)。
不過并不像ChatGPT,現(xiàn)在只有少數(shù)人擁有Sora的訪問權(quán)限。
但不少人還是想自己玩玩看的,所以O(shè)penAI CEOSam Altman立刻抓住這次展示能力的機(jī)會,發(fā)布Sora后在推特上開始在線接單。
只要發(fā)布提示詞并艾特Sam,或者在Sam的推特下回復(fù),就有可能收到Sora生成好的視頻。
這其中認(rèn)真回復(fù)的有之,趁機(jī)搗亂的也有之。
狗狗幣圖形設(shè)計師DogeDesigner就回復(fù)了Sam的推特,他給的提示詞是:
一個人把一家開源的非盈利公司變成閉源的盈利公司。
這描述,你要不直接報Sam身份證號得了(doge)。
而馬斯克直接把這條回復(fù)po了出來。
一方面他最愛的數(shù)字貨幣就是狗狗幣,在推特上和這位用戶也經(jīng);;而更重要的另一方面,馬斯克和OpenAI有不少過節(jié)。
雖然馬斯克是聯(lián)合創(chuàng)始人,但后來被踢出了董事會,并且在OpenAI轉(zhuǎn)變?yōu)橛竞螅啻卧诠_場合批評和指責(zé)OpenAI失去初心,開始逐利。
隨后,馬斯克又轉(zhuǎn)發(fā)了一條和OpenAI有關(guān)的內(nèi)容,并配了個帶單片眼鏡的emoji表情,像是在疑惑。
這條內(nèi)容是在說Sam擁有一家OpenAI的風(fēng)險投資基金,這家基金截至去年已承諾投資1.75億美元。
并且這家基金并沒有由OpenAI來管理,只是“暫時”放在Sam的名下。
眾所周知,Sam并不直接擁有OpenAI的股權(quán),并且把自己通過YC基金對OpenAI投資的間接持有稱為“不重要”,表示自己成立OpenAI就是因為喜歡AI。
而這則Sam擁有OpenAI風(fēng)投基金的新聞曝出,馬斯克又表示疑惑,可能想暗指Sam還是想要用OpenAI獲利,并不是之前表現(xiàn)出“淡泊名利”的樣子。
本以為馬斯克嘲諷兩條就結(jié)束了,誰知在有用戶發(fā)布對比Sora和特斯拉FSD V12的推特后,馬斯克又上線回復(fù):
特斯拉大概在一年前就能生成真實世界的視頻了,并且精準(zhǔn)符合物理學(xué)。
但這并不是很有趣,因為所有的訓(xùn)練數(shù)據(jù)都來自汽車,所以視頻也看起來像來自特斯拉車輛上的攝像頭,盡管這是動態(tài)生成而不是記錄下的世界。
那接下來就看看,Sora和特斯拉的能力對比到底如何?
Sora是什么
Sora,OpenAI的首個視頻生成大模型,或者說是文生視頻大模型。
本質(zhì)上是一個擴(kuò)散模型(Diffusion models),基于不同時長、分辨率和寬高比的視頻和圖像訓(xùn)練得來。
官方只淺淺介紹了一些技術(shù)細(xì)節(jié),其中比較關(guān)鍵的有patch、潛(latent),以及訓(xùn)練路線上的選擇。
對應(yīng)語言大模型中的token,OpenAI創(chuàng)造了patch這一概念,模型可以將視頻壓縮進(jìn)低維潛空間中,并分解為Spacetime latent patches,統(tǒng)一不同的視覺數(shù)據(jù)表現(xiàn)形式。
也就是說,正如token可以簡化、統(tǒng)一不同的自然語言,patch可以統(tǒng)一不同分辨率、時長和寬高比的視頻和圖像。
而這個視頻壓縮網(wǎng)絡(luò)也是OpenAI特意訓(xùn)練的,用來降低視覺數(shù)據(jù)維度,并且訓(xùn)練也是基于該網(wǎng)絡(luò)進(jìn)行,可以減少計算量的壓力。
并且,由于Sora的訓(xùn)練直接在視頻數(shù)據(jù)的原始尺寸上進(jìn)行,和其他模型不同,所以在輸出結(jié)果上,Sora也能hold住各種分辨率、時長、寬高比、視角等等的視頻。
同時還優(yōu)化了構(gòu)圖和布局。比如業(yè)內(nèi)同類型模型都會盲目裁剪輸出視頻為正方形,造成主題元素只能部分展示,但Sora可以捕捉完整的場景。
另外,Sora的技術(shù)還包含OpenAI之前在DALL·E 3、擴(kuò)散型Transformer方面的技術(shù)積累和突破。
最終展示出的Sora,就不僅能夠理解提示詞中的要求,還了解這些物體在物理世界中的存在方式。
能理解紙飛機(jī)在林中穿過時會發(fā)生碰撞,同時光影也會發(fā)生變化。
一群紙飛機(jī)在茂密的叢林中翩翩起舞,在樹林中穿梭,就像候鳥一樣。
同時在單個視頻中創(chuàng)建多個鏡頭,并靠對語言的深入理解準(zhǔn)確地解釋提示詞,保留角色和視覺風(fēng)格。
美麗、白雪皚皚的東京熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道,跟隨幾個人享受美麗的雪天并在附近的攤位購物。絢麗的櫻花花瓣隨著雪花隨風(fēng)飄揚。
不過,Sora現(xiàn)在并不完美。OpenAI指出它可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理,并且可能無法理解因果關(guān)系。
例如“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”,狼的數(shù)量會變化,一些憑空出現(xiàn)或消失。
還可能混淆提示的空間細(xì)節(jié),例如混淆左右,并且可能難以精確描述隨著時間推移發(fā)生的事件,例如遵循特定的相機(jī)軌跡。
如提示詞“籃球穿過籃筐然后爆炸”中,籃球沒有正確被籃筐阻擋。
但這些缺點也沒讓各路大佬吝嗇他們的贊美,比如紐約大學(xué)助理教授、ResNeXt一作謝賽寧直言,Sora將改寫整個視頻生成領(lǐng)域。
以上就是Sora當(dāng)前展示出的能力,還有背后的技術(shù),那么特斯拉的能力又如何?
特斯拉的視頻生成能力
去年7月,特斯拉自動駕駛軟件總監(jiān)Ashok Elluswamy在CVPR2023的演講中提到,特斯拉正在為其人工智能技術(shù)構(gòu)建一個基礎(chǔ)的世界模型(General World Model)。
根據(jù)他的介紹,該模型基于神經(jīng)網(wǎng)絡(luò),使用過去的視頻和其他事物為條件來預(yù)測未來。
該模型不僅能預(yù)測一個攝像頭的視角,而是可以預(yù)測八個攝像頭的視角(展示的是七個)。
比如對于同一段視頻,該模型可以預(yù)測本車在“繼續(xù)直行”和“向右變道”兩種情況下,未來周圍環(huán)境的演變。
這其實也就是一種基于文本生成不同視頻的能力。
同時在不同攝像頭視角之間,周圍車輛的顏色可以保持一致,也就是符合3D物體移動的運動規(guī)律。
特斯拉這里還強(qiáng)調(diào),我們并沒有特意訓(xùn)練它在3D層面的能力,或者要求它表現(xiàn)出3D層面的能力,這意味著神經(jīng)網(wǎng)絡(luò)已經(jīng)理解了深度、運動等物理概念。
并且,特斯拉的這個模型不局限于RGB數(shù)據(jù)維度,也可以是語義或者幾何維度。
一句話總結(jié)就是,基于過去的視頻,給出車輛行動提示,甚至不給提示,該模型可以預(yù)測不同的未來情況,以及生成視頻。
那么既然特斯拉有了如此強(qiáng)大的模型,為什么之前并沒有很多曝光度?
因為當(dāng)時介紹時,Ashok直言這還是個“半成品”,關(guān)鍵是它可以提供一個神經(jīng)網(wǎng)絡(luò)模擬器,推演出不同的未來結(jié)果,跟蹤道路中所有移動的物體。
并且,在馬斯克這次展示自家視頻生成能力時也坦言稱,目前對于FSD訓(xùn)練的算力還不夠,所以并沒有用模型生成的視頻進(jìn)行訓(xùn)練。
不過馬斯克也表示,特斯拉是可以訓(xùn)練的,在今年晚些時候,當(dāng)公司有空余算力了就會開始。
到這里其實能看出特斯拉的世界模型和Sora之間的相似點,都是通過視覺讓AI能夠理解甚至模擬真實的物理世界。
只不過OpenAI在探索過程中,先放出Sora給世界帶來一點AI震撼;而特斯拉把這個能力運用在了探索自動駕駛,通過純視覺方案,以及視頻數(shù)據(jù)訓(xùn)練出的端到端神經(jīng)網(wǎng)絡(luò),F(xiàn)SD V12已經(jīng)能比肩老司機(jī)。
所以FSD和Sora,不過是AI通過視覺認(rèn)知世界理解世界上的兩個開花結(jié)果,F(xiàn)SD最終用來行動,Sora則是用來生成視頻。
殊途同歸。
馬斯克的認(rèn)知,確實了不得。
網(wǎng)友評論
外資動態(tài)排行
- 誰能擋得住英偉達(dá)狂飆?黃仁勛要打造AI工廠
- IFA2024:東芝景套系以融情于景的藝術(shù)美學(xué),營造藝術(shù)生活新
- 英特爾獲以色列32億美元撥款 將投資250億美元在該國建芯片
- 亞馬遜再裁員:Prime及MGM等業(yè)務(wù)部門裁員數(shù)百人
- 高通第二財季營收93.89億美元 凈利潤同比增長37%
- AMD第一季度營收54.7億美元 經(jīng)調(diào)凈利潤10.1億美元
- 裁員、分拆、出售、停工,蒙眼狂奔的英特爾還沒見到曙光
- 又來一波大裁員?硅谷到底怎么了
- iPad雙雙上新!蘋果開始收復(fù)失地?
- 消息稱阿爾特曼和喬納森・艾維從蘋果“挖人”,開發(fā)人
延伸閱讀
- 蘋果代工商Jabil關(guān)閉硅谷廠房 解雇分流近300名員工
- 英特爾Q1財報低于預(yù)期 股價跌幅達(dá)8.63%
- 重返OLED電視戰(zhàn)場?三星或重啟大尺寸OLED投資
- 通用家電與2家美國領(lǐng)先住宅建筑商再次達(dá)成獨家合作
- 三星一季度凈利潤5.11萬億韓元 低于市場預(yù)期
- 蘋果高管:產(chǎn)品定價調(diào)整在中國市場迎來積極反響
- 蘋果第二季度大中華區(qū)營收同比下滑21.5%
- 特斯拉宣布20億美元融資計劃 周四股價逆勢漲超4%
- 蘋果力拼研發(fā)“自主芯片”
- 載譽95載,啟創(chuàng)新未來!斯寶亞創(chuàng)邀您共賞2019北京ISH中國供