OpenAI展示新音頻工具 可朗讀文本并模仿聲音

2024-04-02 08:41:15   來源:新浪科技   評論:0   [收藏]   [評論]
導(dǎo)讀:  OpenAI公布了一項功能的早期測試結(jié)果,該功能可用令人信服的人聲朗讀文字。這彰顯了人工智能的一個新領(lǐng)域,并引發(fā)了關(guān)于深度偽造的擔(dān)憂! ≡摴痉窒砹嗣麨檎Z音引擎(Voice Engine)的文本轉(zhuǎn)語音模型小規(guī)模
  OpenAI公布了一項功能的早期測試結(jié)果,該功能可用令人信服的人聲朗讀文字。這彰顯了人工智能的一個新領(lǐng)域,并引發(fā)了關(guān)于深度偽造的擔(dān)憂。

  該公司分享了名為“語音引擎”(Voice Engine)的文本轉(zhuǎn)語音模型小規(guī)模試用的早期演示和用例,據(jù)發(fā)言人介紹,目前約有10家開發(fā)商可使用該模型。OpenAI在3月早些時候向記者介紹了這一功能,但決定暫不大規(guī)模發(fā)布。

  OpenAI的發(fā)言人說該公司在收到政策制定者、行業(yè)專家、教育工作者和創(chuàng)意人士等利益相關(guān)方的反饋后決定縮減發(fā)布規(guī)模。據(jù)早前的新聞發(fā)布會介紹,該公司原本計劃通過申請流程向多達100家開發(fā)商發(fā)布該工具。

  其他AI技術(shù)已經(jīng)在某些情境下被用來偽造聲音。今年1月,一通自稱喬·拜登(Joe Biden)總統(tǒng)打來的以假亂真的電話呼吁新罕布什爾州居民不要在初選中投票,這一事件在全球關(guān)鍵選舉前加劇了對AI的恐懼。

  與OpenAI過去生成音頻的功能不同,語音引擎可以創(chuàng)建聽起來像具體個人的聲音,并完整呈現(xiàn)特有的語調(diào)和語氣。該軟件只需要一段15秒的錄音,即可重現(xiàn)一個人的聲音。

  “只要音頻設(shè)置得當(dāng),基本就能得出人類水準(zhǔn)的聲音。”OpenAI產(chǎn)品負責(zé)人杰夫·哈里斯(Jeff Harris)說,“這種技術(shù)質(zhì)量非常了不起。”但哈里斯也表示,“準(zhǔn)確模仿人類語音的能力顯然存在很多安全上的不確定性。”

  非營利性醫(yī)療系統(tǒng)Lifespan旗下的Norman Prince Neurosciences Institute是OpenAI目前的開發(fā)合作伙伴之一,該機構(gòu)正在利用此項技術(shù)幫助患者恢復(fù)聲音。例如,據(jù)OpenAI的博客文章,該工具被用于恢復(fù)一位因腦瘤失去清晰說話能力的年輕患者的聲音,方法是復(fù)制她此前為一個學(xué)校項目錄制的發(fā)言。

  OpenAI的自定義語音模型還可將生成的音頻翻譯成不同語言。這對于音頻行業(yè)公司非常有用,比如Spotify Technology SA。Spotify已經(jīng)在自己的試點計劃中利用該技術(shù)來翻譯萊克斯·弗里德曼(Lex Fridman)等熱門主持人的播客節(jié)目。OpenAI還宣傳了該技術(shù)的其他有益應(yīng)用,例如為兒童教育內(nèi)容創(chuàng)建更多樣化的聲音。

  在測試計劃中,OpenAI要求合作伙伴同意其使用政策,即在使用原始聲音前征得聲音主人的同意,并告知聽眾他們聽到的是AI生成的聲音。該公司還加入了聽不見的音頻水印,以判斷哪些音頻由其工具創(chuàng)建。

  OpenAI表示在決定是否大范圍發(fā)布該功能前,正在征求外部專家的反饋。該公司在博文中表示:“讓全球人民了解這項技術(shù)的發(fā)展方向至關(guān)重要,不論我們最終是否親自廣泛部署它。”

  OpenAI還寫道,希望其軟件的試用能“激發(fā)增強社會韌性的需求”,以應(yīng)對更先進的AI技術(shù)帶來的挑戰(zhàn)。例如,該公司呼吁銀行逐步停止將語音身份驗證作為訪問銀行賬戶和敏感信息的安全措施。它還尋求開展公眾教育,幫助大家了解欺騙性的AI內(nèi)容,并開發(fā)更多技術(shù)來檢測音頻內(nèi)容是否由AI生成。

分享到:
責(zé)任編輯:zsz

網(wǎng)友評論