自 1978 年 Speak & Spell 玩具推出以來,語音合成已經取得了長足的進步,該玩具曾憑藉其使用電子語音朗讀單字的尖端能力而讓人們驚嘆不已。現在,透過使用深度學習人工智慧模型,軟體不僅可以創建逼真的聲音,還可以使用小語音樣本令人信服地模仿現有聲音。
沿著這些思路,OpenAI 本週發布了語音引擎,這是一種文字轉語音的人工智慧模型,可以根據 15 秒的錄製音訊片段創建合成語音。我們在我們的網站上提供正在運行的語音引擎的音訊樣本。
克隆語音後,用戶可以將文字輸入語音引擎並獲得人工智慧生成的語音結果。但 OpenAI 尚未準備好廣泛使用其技術。該公司原本計劃在本月稍早啟動一項試點計劃,供開發人員註冊語音引擎 API。然而,在進一步考慮道德影響後,該公司決定暫時縮減目標。
該公司寫道:“根據我們對人工智慧安全的做法和自願承諾,我們選擇此時預覽這項技術,但不會廣泛發布。” “我們希望語音引擎的預覽能夠突顯其潛力,並促進增強社會應對更引人注目的生成模型帶來的挑戰的彈性的必要性。”
總的來說,語音克隆技術並不是特別新鮮。 自 2022 年以來,已有多種 AI 語音合成模型存在,該技術透過 OpenVoice 和 XTTSv2 等軟體包活躍在開源社群中。但 OpenAI 正在向每個人提供其特定品牌的語音技術的想法值得注意。而且在某些方面,該公司不願完全發布可能是一個更大的問題。
OpenAI 表示,其語音技術的優勢包括提供聽起來自然的閱讀幫助、允許創作者在保留母語口音的情況下通過翻譯內容來接觸世界,以及提供個性化的音頻選項,其中包括支持非語言個體以及幫助患者在術後恢復聲音。治療。具有語言障礙的病症。
但這也意味著任何擁有某人錄製的 15 秒音訊的人都可以有效地複製它,因此濫用的可能性是顯而易見的。 即使 OpenAI 沒有廣泛使用其語音引擎,其克隆聲音的能力也可用於創建新的應用程序,例如通過模仿親人聲音的電話詐騙或使用喬·拜登等政治家的克隆聲音進行競選機器人電話。它已經給社會帶來了問題。
研究人員和記者還表明,語音克隆技術可用於闖入使用語音認證(例如大通的語音 ID)的銀行帳戶,這促使美國參議院銀行委員會主席、俄亥俄州民主黨參議員謝羅德·布朗表示,該部門表示住房和城鄉建設部將於2023 年5 月致函幾家大型銀行的首席執行官,幫助他們應對人工智慧驅動的風險,並將詢問有關銀行採取的安全措施的問題。
OpenAI 認識到這項技術如果廣泛發布可能會導致問題,因此它最初試圖透過一套規則來避免這些問題。自去年以來,該公司一直在與一些合作夥伴公司測試這項技術。例如,視訊合成公司 HeyGen 使用此模型將說話者的聲音翻譯成其他語言,同時保留相同的音訊。