Sora沖擊波

2024-02-19 08:57:12 來源：北京商報(bào) 評論：0 [收藏] [評論]

導(dǎo)讀：　　2023年春節(jié)，AI圈的絕對主角是屬于ChatGPT的，2024年春節(jié)，OpenAI再次一顆深水炸彈，毫無預(yù)兆發(fā)布的文生視頻模型Sora，讓AI圈又一次一夜變天。　　一是時(shí)長，二是逼真程度，Sora實(shí)現(xiàn)了兩個(gè)老大難問題的同時(shí)解

　　2023年春節(jié)，AI圈的絕對主角是屬于ChatGPT的，2024年春節(jié)，OpenAI再次一顆“深水炸彈”，毫無預(yù)兆發(fā)布的文生視頻模型Sora，讓AI圈又一次“一夜變天”。

　　一是時(shí)長，二是逼真程度，Sora實(shí)現(xiàn)了兩個(gè)老大難問題的同時(shí)解決，以至于外界毫不吝嗇地將其形容為“顛覆性”的存在。360創(chuàng)始人周鴻祎說，Sora的發(fā)布意味著AGI的(通用人工智能)實(shí)現(xiàn)將從十年縮短到一年。

　　Sora或者說是OpenAI，正醞釀并引領(lǐng)一場新的巨變。

　　沒有任何預(yù)兆和消息的提前透露，近日，OpenAI突然發(fā)布了首個(gè)文生視頻模型Sora，逼真程度瞬間“引爆”市場。

　　“一句話生成視頻”正無限接近于現(xiàn)實(shí)。在OpenAI的展示中，只需要一段簡單的文本指令，Sora就可以直接輸出最長達(dá)60秒的視頻，并且包含高度細(xì)致的背景、復(fù)雜的多角度鏡頭以及富有情感的多個(gè)角色。

　　一位行走在東京街道上時(shí)尚女性的視頻幾乎成了Sora的“代表作”。這段一分鐘的視頻里，從主要人物到背景人物，從近景到遠(yuǎn)景，細(xì)致、逼真的畫面和流暢轉(zhuǎn)換的鏡頭幾乎以假亂真。

　　OpenAI介紹稱，因使用Transformer架構(gòu)，Sora具有極強(qiáng)的擴(kuò)展性，同時(shí)在基于過去對DALL·E和GPT的研究基礎(chǔ)構(gòu)建上還利用了DALL·E 3的重述提示詞技術(shù)，為視覺模型訓(xùn)練數(shù)據(jù)生成高描述性的標(biāo)注。

　　國泰君安研報(bào)指出，Sora具有三大突出亮點(diǎn)，一是60秒長視頻，Sora可以保持視頻主體與背景的高度流暢性與穩(wěn)定性。二是單視頻多角度鏡頭，Sora在一個(gè)視頻內(nèi)實(shí)現(xiàn)多角度鏡頭，分鏡切換符合邏輯且十分流暢。三是理解真實(shí)世界的能力，Sora對于光影反射、運(yùn)動(dòng)方式、鏡頭移動(dòng)等細(xì)節(jié)處理得十分優(yōu)秀，極大地提升了真實(shí)感。

　　對于文生視頻的技術(shù)問題，北京市社會科學(xué)院副研究員王鵬對北京商報(bào)記者提到，這首先涉及到算法的復(fù)雜性。文生視頻技術(shù)不僅涉及文本到圖像的轉(zhuǎn)換，還需要處理時(shí)序信息和音頻同步。這需要復(fù)雜的深度學(xué)習(xí)模型，如生成對抗網(wǎng)絡(luò)(GANs)和變分自編碼器(VAEs)等，以捕捉視頻中的動(dòng)態(tài)變化和細(xì)節(jié)。

　　此外，訓(xùn)練文生視頻模型需要大量的帶標(biāo)注數(shù)據(jù)，包括文本描述和對應(yīng)的視頻片段。這樣的數(shù)據(jù)集難以獲取和標(biāo)注，尤其是對于特定領(lǐng)域的應(yīng)用。數(shù)據(jù)的多樣性和質(zhì)量也直接影響模型的生成能力。如果訓(xùn)練數(shù)據(jù)缺乏多樣性或存在偏見，生成的視頻可能會缺乏創(chuàng)意或包含不準(zhǔn)確的信息。

　　不過OpenAI也承認(rèn)，目前Sora還存在著一定的短板，比如無法準(zhǔn)確地模擬復(fù)雜場景的物理原理，且無法理解這其中的因果關(guān)系，呈現(xiàn)在視頻上，可能就會出現(xiàn)一個(gè)人咬了一口餅干后，餅干并沒有咬痕的結(jié)果。

　　AGI加速

　　“通過文字描述的方式來生成前后有關(guān)聯(lián)的連續(xù)視覺內(nèi)容的時(shí)代來臨了”。在接受北京商報(bào)記者采訪時(shí)，新壹科技CTO張華偉說，從Sora的效果看，穩(wěn)定性已經(jīng)很高了，這也意味著視頻內(nèi)容的生產(chǎn)效率大大提升了。

　　新壹科技是目前國內(nèi)在AIGC領(lǐng)域布局最為全面、技術(shù)較為成熟的人工智能公司之一，2023年7月，壹科技發(fā)布國內(nèi)首款專注于視頻領(lǐng)域的AIGC模型“新壹視頻大模型”。

　　中國企業(yè)資本聯(lián)盟副理事長柏文喜對北京商報(bào)記者提到，Sora有望顛覆影視、游戲、廣告等多個(gè)行業(yè)。隨著Sora等文生視頻技術(shù)的成熟，各行各業(yè)都可以利用其生成高質(zhì)量的視頻內(nèi)容，提高內(nèi)容創(chuàng)作效率，降低制作成本。

　　“從長期來看，這種顛覆效應(yīng)將更加明顯，可能導(dǎo)致傳統(tǒng)視頻制作人員的需求減少，進(jìn)而推動(dòng)整個(gè)行業(yè)的變革”。柏文喜稱。

　　不過中國信息協(xié)會常務(wù)理事、國研新經(jīng)濟(jì)研究院創(chuàng)始院長朱克力提到，這種顛覆還需要一定的時(shí)間，因?yàn)镾ora盡管在技術(shù)上取得了突破，但在實(shí)際應(yīng)用中還需要解決許多問題，如模型的穩(wěn)定性、可擴(kuò)展性和計(jì)算效率等。此外，各行業(yè)對于新技術(shù)的接受和應(yīng)用也需要一個(gè)過程。

　　但Sora真正的“星辰大海”，很可能早就超過了視頻的范疇。就像周鴻祎在評價(jià)Sora時(shí)說的，“我認(rèn)為AGI很快會實(shí)現(xiàn)，就這幾年的事兒了”。

　　在接受北京商報(bào)記者采訪時(shí)，天使投資人、資深人工智能的郭濤提到，與文本和圖像相比，視頻不僅包含了靜態(tài)圖像的空間信息，還加入了時(shí)間維度，要求模型能夠理解和預(yù)測隨時(shí)間變化的動(dòng)態(tài)場景。

　　這意味著Sora需要處理更加豐富的數(shù)據(jù)類型，包括物體的運(yùn)動(dòng)、光影變化、遮擋關(guān)系等，這些都是AGI所需解決的核心問題。

　　朱克力也表示，文生文和文生圖主要關(guān)注的是靜態(tài)信息的轉(zhuǎn)換和表達(dá)，而文生視頻則需要在連續(xù)的時(shí)間序列中保持場景的一致性、物體的動(dòng)態(tài)關(guān)系和光影的變化，這要求模型具備更強(qiáng)的時(shí)空建模能力和更高的計(jì)算復(fù)雜度。因此，文生視頻技術(shù)的成功對于推動(dòng)AGI的發(fā)展具有更為顯著的作用。

　　事實(shí)上，自從ChatGPT的橫空出世，AI圈便再次燃起了通用人工智能的浪潮，而ChatGPT也被視為通用人工智能的起點(diǎn)和強(qiáng)人工智能的拐點(diǎn)。周鴻祎說，大語言模型最牛的點(diǎn)在于，他不是填空機(jī)，而是能完整地理解這個(gè)世界的知識。

　　而Sora對真實(shí)世界的理解能力也是AGI得以實(shí)現(xiàn)最重要的因素之一。按照周鴻祎的說法，OpenAI利用其大語言模型的優(yōu)勢，把LLM和Diffusion結(jié)合起來訓(xùn)練，讓Sora實(shí)現(xiàn)了對現(xiàn)實(shí)世界的理解和對世界的模擬兩層能力，跳出2D的范圍模擬真實(shí)的物理世界。

　　“所以Sora只是小試牛刀，它展現(xiàn)的不僅僅是一個(gè)視頻制作的能力，而是大模型對真實(shí)世界有了理解和模擬之后，會帶來新的成果和突破。”周鴻祎說。

　　理想與現(xiàn)實(shí)

　　據(jù)悉，目前Sora并未對公眾全面開放，僅邀請部分測試者進(jìn)行體驗(yàn)。造成這一情況的原因，是Sora所引發(fā)的關(guān)于濫用視頻生成技術(shù)所帶來的安全性擔(dān)憂，而這也幾乎可以看做是Sora想要“做大做強(qiáng)”必然需要邁過的一道坎。

　　王鵬總結(jié)出了文生視頻的三大難點(diǎn)，分別是真實(shí)性問題、創(chuàng)意和版權(quán)問題以及可解釋性和透明度問題。

　　具體而言，隨著文生視頻技術(shù)的發(fā)展，生成的視頻越來越難以與真實(shí)視頻區(qū)分。這可能引發(fā)一系列的倫理和社會問題，如虛假信息的傳播、隱私侵犯等。

　　而AI生成的視頻是否應(yīng)該受到版權(quán)保護(hù)?如果AI使用了人類藝術(shù)家的作品作為訓(xùn)練數(shù)據(jù)，那么生成的視頻是否侵犯了原作的版權(quán)?這些問題目前還沒有明確的答案。

　　此外，AI模型，包括文生視頻模型，往往缺乏可解釋性和透明度。這意味著當(dāng)模型出現(xiàn)錯(cuò)誤或偏見時(shí)，很難找出原因并進(jìn)行糾正。這增加了模型在實(shí)際應(yīng)用中的風(fēng)險(xiǎn)。

　　但這些并不足以阻擋文生視頻的發(fā)展。聚焦國內(nèi)，有媒體不完全統(tǒng)計(jì)數(shù)據(jù)顯示，包括萬興科技、博匯科技、易點(diǎn)天下、數(shù)碼視訊、漢王科技、當(dāng)虹科技、東方國信(維權(quán))、神思電子、因賽集團(tuán)、拓爾思、國脈文化、佳都科技在內(nèi)的超10家A股上市公司近三個(gè)月以來在互動(dòng)平臺披露視頻生成模型領(lǐng)域的業(yè)務(wù)情況。

　　而在2023年6月，萬興科技就曾公告，基于AI文生視頻以及3D數(shù)字人等技術(shù)開發(fā)了數(shù)字人營銷短視頻創(chuàng)作工具，面向跨境營銷和電商領(lǐng)域用戶，通過AIGC與虛擬數(shù)字人技術(shù)快速生成“真人”主播，解決傳統(tǒng)電商營銷視頻實(shí)拍模式下的外籍模特?cái)?shù)量少、多語言翻譯配音難度高、制作周期長、成本居高不下等問題。

　　周鴻祎說：“OpenAI的CEO阿爾特曼是個(gè)營銷大師，他知道怎樣掌握節(jié)奏。”但更值得警惕的是，Sora的營銷“心機(jī)”背后，OpenAI隱藏的實(shí)力。就像周鴻祎說的：“他們手里的武器并沒有全拿出來，這樣看來，中國跟美國的AI差距可能還在加大。”

　　2023年是國內(nèi)大模型競爭白熱化的一年�！侗本┦腥斯ぶ悄苄袠I(yè)大模型創(chuàng)新應(yīng)用白皮書(2023年)》顯示，我國10億參數(shù)規(guī)模以上的大模型已超過200個(gè)。而從2023年下半年開始，大模型競爭焦點(diǎn)也開始從底層模型的搭建轉(zhuǎn)移向行業(yè)的落地應(yīng)用。

　　工業(yè)和信息化部賽迪研究公布的生成式人工智能領(lǐng)域的相關(guān)數(shù)據(jù)顯示，2023年我國生成式人工智能的企業(yè)采用率已達(dá)15%，市場規(guī)模約為14.4萬億元。在制造業(yè)、零售業(yè)、電信行業(yè)和醫(yī)療健康等四大行業(yè)的生成式人工智能技術(shù)的采用率均實(shí)現(xiàn)較快增長。

　　不過從整體而言，國內(nèi)在AI領(lǐng)域的發(fā)展仍稍顯遜色，未出現(xiàn)代表性應(yīng)用的同時(shí)，行業(yè)發(fā)展也出現(xiàn)“降溫”跡象。CB insights報(bào)告顯示，去年，中國AI領(lǐng)域投融資數(shù)量約為232筆，同比下降38%，融資總額約為20億美元，同比下降70%。

　　有分析師解讀，這意味著，熱錢可能集中地涌向了少數(shù)團(tuán)隊(duì)背景和技術(shù)實(shí)力強(qiáng)大的公司。從資源分配的角度而言，后來者想要再擠進(jìn)模型層創(chuàng)業(yè)，空間已經(jīng)不多。

　　“不少國內(nèi)的大模型企業(yè)仍然面臨缺少自主創(chuàng)新的問題，如果不能知其然，必然不能知其所以然”。在接受北京商報(bào)記者采訪時(shí)，一位業(yè)內(nèi)人士如此說道。

　　北京商報(bào)記者楊月涵

分享到：

責(zé)任編輯：zsz

更多相關(guān)搜索：

新聞
圖片
下載
專題

返回產(chǎn)品頻道

快速導(dǎo)航：新聞立場角度消費(fèi) 服務(wù) 產(chǎn)品

Sora沖擊波

網(wǎng)友評論

智能應(yīng)用排行

延伸閱讀

最新智能應(yīng)用