谷歌研究人員開發了一種新的人工智慧系統,可以從一張靜態照片中產生人們說話、手勢和動作的逼真影片。來自報告: 這項名為 VLOGGER 的技術依靠先進的機器學習模型來合成令人驚嘆的真實鏡頭,開啟了各種潛在的應用,但也引發了人們對深度偽造和錯誤訊息的擔憂。 正如題為“VLOGGER:用於體現化身合成的多模態擴散”(PDF)的研究論文中所述,AI 模型將人的照片和音頻剪輯作為輸入,並輸出與音頻匹配的視頻。人。說出單字並做出相應的面部表情、頭部動作和手勢。儘管該影片並不完美,存在一些瑕疵,但它在動畫靜態圖像的能力方面取得了巨大進步。
由Google研究院的 Enric Corona 領導的研究人員使用稱為擴散模型的機器學習模型取得了新的成果。擴散模型最近在從文字描述生成高度逼真的圖像方面表現出了卓越的性能。透過將這些擴展到視訊領域並在大量新資料集上對其進行訓練,該團隊能夠創建一個人工智慧系統,能夠以非常令人信服的方式使照片栩栩如生。 「與之前的工作相比,我們的方法不需要對每個人進行訓練,不依賴人臉檢測或裁剪,生成完整的圖像(不僅僅是人臉和嘴唇),」考慮到廣泛的場景(例如,可見的東西) ;軀幹、不同主體的身份等)對於傳播者的正確整合很重要,」作者寫道。