下一代小米AI相機曝光:完全替代濾鏡 8K視頻成主流
近日,小米官方發(fā)文詳細科普了全新的小米AI相機2.0,同時透露了下一代小米AI相機的特色。
小米介紹稱,傳統(tǒng)的AI相機的做法,通常分成兩個部分,一是識別,二是后處理。
前者通過神經(jīng)網(wǎng)絡(luò)來“認知”當前拍攝的場景,后者根據(jù)不同的場景,使用一些傳統(tǒng)的方式來針對特定場景做一些優(yōu)化,比如加一些特殊的濾鏡。所謂“AI“,其實只有前面的識別部分跟AI掛鉤。
這種方式最大的問題是只能針對特定的幾個預(yù)設(shè)好的場景來做優(yōu)化,并且針對同一個場景,只能采用一樣的模板來處理,而沒有針對當前的色彩,光影等做一些更有針對性的局部優(yōu)化,效果會大打折扣。
AI相機2.0詳細技術(shù)詳解
為了解決傳統(tǒng)AI相機只能使用固定模板、針對預(yù)設(shè)場景優(yōu)化的問題,相機算法團隊開創(chuàng)性的將傳統(tǒng)的場景感知拓展成為全方位的色彩、對比度、光影等內(nèi)容感知。
同時,小米還使用了深度神經(jīng)網(wǎng)絡(luò)對整個畫面進行全局和局部的分析,獲取到最優(yōu)的畫面效果,并且實時地對畫質(zhì)進行增強。所以,新一代的AI相機能夠?qū)λ械膱鼍斑M行有針對性的畫質(zhì)提升。
可以說,對于同樣的一片草地,在不同的光照,角度,甚至背景下,新的AI相機都會有不一樣的優(yōu)化效果。
小米的技術(shù)把識別+處理合二為一,一站式的實現(xiàn)了AI修圖師的效果。為了實現(xiàn)上述功能,小米在以下幾方面進行了技術(shù)創(chuàng)新。
(1)數(shù)據(jù)生成
AI相機2.0的目標是能夠產(chǎn)生美的圖片,這就包括要對原圖做噪聲,亮度,顏色,對比度,動態(tài)范圍等多個維度進行調(diào)整。
對于深度學習而言,這樣的訓練集很難獲取。除了和團隊中的設(shè)計師合作PS了數(shù)萬張手機拍張數(shù)據(jù)之外,小米也收集了很多網(wǎng)絡(luò)上的高分圖片作為目標,使用GAN網(wǎng)絡(luò)進行訓練。
小米使用的GAN網(wǎng)絡(luò)是two path GAN,跟cycle GAN 比較類似,能夠保證生成網(wǎng)絡(luò)生成的圖片跟原圖片的內(nèi)容保持一致,僅僅去優(yōu)化一些我們希望對原圖進行優(yōu)化的維度。
(2)訓練過程
在訓練的過程中,小米使用的loss主要有consistency loss,similarity loss, total variance loss , adversarial loss,通過不同的weight 來控制生成網(wǎng)絡(luò)的優(yōu)化方向和能力。
下面將從訓練機制、幀間一致性處理、開關(guān)模塊這三個方面來詳細描述訓練過程:
> Teacher - student 機制:
生成器網(wǎng)絡(luò)訓練結(jié)束后,以生成器網(wǎng)絡(luò)作為teacher 網(wǎng)絡(luò),一個更輕量級的網(wǎng)絡(luò)作為student 網(wǎng)絡(luò)進行學習。在輕量級的網(wǎng)絡(luò)中我們加入了自相似圖(self-similarity map)作為guidance map來實現(xiàn)相似結(jié)構(gòu)和區(qū)域的效果盡量一致。
Teacher-Student網(wǎng)絡(luò)
> 幀間效果一致性:
由于每幀都會做處理,幀間效果需要穩(wěn)定,否則在視頻和預(yù)覽的時候就會容易出現(xiàn)跳變。但是上述的訓練是在圖片上做的,因此,在訓練student網(wǎng)絡(luò)的時候小米添加了幀間相似度loss,以保證幀間的效果一致。
幀間相似度Loss
> 開關(guān)module:
輕量級網(wǎng)絡(luò)由于參數(shù)比較少,對于不同特點的景物不容易做到對應(yīng)效果,因此小米在訓練的過程中加入了switch module,這個模塊的作用就是能夠通過判斷不同的景物來選擇不同的效果,有效的實現(xiàn)了針對不同的場景做不同的處理的效果。
Switch module
(3)處理速度
在實現(xiàn)AI算法2.0中,還有一個最大的技術(shù)挑戰(zhàn)是計算量。
眾所周知,針對圖像像素處理的深度神經(jīng)網(wǎng)絡(luò)的計算量極高,對手機的計算能力是一個很大的考驗,而小米除了要實現(xiàn)預(yù)覽實時處理,所見即所得的效果之外,更“變態(tài)”的要求能針對一億像素的原片進行處理。
為了實現(xiàn)這兩個看似不可能的任務(wù),團隊的攻城獅們對于神經(jīng)網(wǎng)絡(luò)的優(yōu)化達到了每個四則運算都去細摳的程度。除了使用常見的網(wǎng)絡(luò)減枝,網(wǎng)絡(luò)壓縮的技術(shù),小米還創(chuàng)造性地提出了一種新的基于導向圖的開關(guān)網(wǎng)絡(luò)結(jié)。
這個網(wǎng)絡(luò)不僅僅可以使得網(wǎng)絡(luò)參數(shù)和計算量大幅下降,也可以滿足優(yōu)化的多樣性要求(噪聲,亮度,顏色,對比度,高動態(tài)等等),最終得以將全新的AI相機展現(xiàn)給用戶。
基于導向圖的開關(guān)網(wǎng)絡(luò)結(jié)構(gòu)
小米方面透露,團隊已經(jīng)緊鑼密鼓的開始了下一代AI相機技術(shù)的研發(fā)工作,在新的一代中,爭取在如下幾個維度上取得突破:
更多風格:
我們在尋找一種可以通過比較有限的數(shù)據(jù)集來快速訓練一種新的風格的技術(shù),這樣可以在很短的時間內(nèi)增加很多用戶喜歡的風格,最后可以完全替代濾鏡功能,甚至可以允許用戶自定義拍照風格。
更多維度:
除了色彩維度之外,我們計劃用類似的技術(shù)來處理亮度、對比度等不同的維度,完美的復(fù)制一個專業(yè)修圖師的大部分工作,全方位的提升拍照和視頻的整體畫質(zhì)和觀感。
進一步優(yōu)化性能:
8K視頻已經(jīng)逐漸成為主流,因此對我們算法的處理時間和內(nèi)存占用提出了更高的要求,我們也在做進一步的優(yōu)化。
網(wǎng)友評論
數(shù)碼通訊排行
- BOE(京東方)登峰 · 造極旗艦新品發(fā)布會盛大舉行 攜手
- 售價 1599 元起!魅族 Lucky 08 AI 手機發(fā)布,搭載 1
- 金剛品質(zhì)大換代,中端體驗全能王,Redmi Note 14 系列正
- 蘋果Vision Pro發(fā)售在即 能復(fù)制iPhone的奇跡嗎?
- “iQOO這回Buff疊滿了”沖上熱搜 網(wǎng)友:iQOO很懂游戲黨
- 周鴻祎再次力挺華為:這手機口彩特別好,一馬平川
- iQOO Pad2系列發(fā)布
- 100W充電器給65W手機筆記本電腦充電會傷害電池? 倍思給出
- 全面全能,更懂影像,努比亞Z60 Ultra正式發(fā)布
- 買大存儲、買高配、買耐用 京東調(diào)研顯示82.7%的人坦言512G