OpenAI 宣布再現人聲的人工智慧技術

首先，OpenAI 提供的工具允許人們簡單地透過描述他們想要看到的內容來創建數位影像。後來，他們建立了類似的技術來製作類似好萊塢電影的全動態影片。

這次，我們宣布了一項可以再現某人聲音的技術。

這家受歡迎的人工智慧新創公司週五宣布，一小群公司正在測試一種名為「語音引擎」的新 OpenAI 系統，該系統可以從 15 秒的錄音中重現人聲。上傳您自己的錄音和文字段落，以便使用類似於您自己的合成聲音大聲朗讀您的文字。

文字不必是您的母語。例如，如果您說英語，您的聲音可以用西班牙語、法語、中文和許多其他語言再現。

OpenAI 並未更廣泛地分享這項技術，因為我們仍在努力了解其潛在風險。與圖像和視訊產生器類似，音訊產生器也可以幫助在社群媒體上傳播虛假訊息。它還允許犯罪分子在上網或打電話時冒充他人。

該公司表示，它特別擔心這種技術可能會被用來擊敗控制網路銀行帳戶和其他個人應用程式存取的語音認證系統。

OpenAI 產品經理 Jeff Harris 在接受采訪時表示：“這是一個敏感問題，正確處理它非常重要。”

該公司正在探索對合成聲音加浮水印並添加控制的方法，以防止人們使用帶有政客和其他名人聲音的技術。

上個月，OpenAI 在發布影片產生器 Sora 時採取了類似的方法。儘管該技術得到了演示，但並未向公眾發布。

OpenAI 是開發新型人工智慧技術的眾多公司之一，該技術可以快速輕鬆地產生合成語音。其中包括Google等科技巨頭以及總部位於紐約的 Eleven Labs 等新創公司。（《紐約時報》起訴 OpenAI 及其合作夥伴微軟，指控其侵犯生成文本的人工智慧系統的版權。）

公司還可以使用這些技術來產生有聲讀物、為線上聊天機器人提供語音以及建立自動廣播電台 DJ。自去年以來，OpenAI 一直在利用其技術為其對話版本的 ChatGPT 提供支援。而且它長期以來為企業提供了一套可用於類似應用的聲音。它們都是根據配音演員提供的剪輯構建的。

但該公司尚未提供像語音引擎這樣的公共工具，讓個人和企業可以從短片中重新創建音訊。哈里斯說，以這種方式再現任何聲音的能力使得這項技術如此危險。他說，這項技術在選舉年可能特別危險。

一月份，新罕布夏州居民收到了機器人電話訊息，勸阻他們在該州初選中投票，其聲音可能是人為生成的，供拜登總統聽到。聯邦通信委員會後來禁止了此類電話。

哈里斯表示，OpenAI 沒有立即從該技術中賺錢的計劃。他說，該工具對於因疾病或事故而失聲的人特別有用。

他展示瞭如何利用這項技術來重建因腦腫瘤受損的女性聲音。他說，在向他提供了她高中時一次演講的簡單錄音後，她就能說話了。