2023 年,OpenAI 向英國議會表示,如果不使用受版權保護的資料,「不可能」訓練其主要人工智慧模型。這是人工智慧領域的常見立場,OpenAI 和其他領先公司使用網路上取得的資料來訓練為聊天機器人和影像產生器提供動力的模型,並聲稱侵犯版權,引發了一波訴訟。
週三的兩項公告提供了證據,表明確實可以在未經許可的情況下不使用受版權保護的材料來大規模訓練語言模型。
由法國政府支持的一組研究人員發布了被認為是最大的完全由公共領域文本組成的人工智慧訓練資料集。非營利組織Fairly Trained 也宣布,它已經獲得了第一個非盜版構建的大規模語言模型認證,而像ChatGPT 背後的技術將成為備受爭議的人工智能行業的一部分。我們展示了它可以以不同於標準的方式建構。
Fairly Trained 執行長 Ed Newton-Rex 表示:“法學碩士沒有受到公平培訓的根本原因。”由於不同意圖像生成新創公司 Stability AI 未經許可抓取內容的政策,他辭去了圖像生成新創公司 Stability AI 的高階主管職務,並於 2024 年 1 月創立了這家非營利組織。
Fairly Training 為那些想要證明自己已經根據自己擁有、授權或公共領域的資料訓練了人工智慧模型的公司提供認證。當該非營利組織成立時,一些批評者指出,它尚未確定滿足這些要求的大規模語言模型。
今天,Fairly Trained 宣布其第一個大規模語言模型已獲得認證。它被稱為 KL3M,由總部位於芝加哥的法律技術諮詢公司 273 Ventures 開發,使用法律、財務和監管文件的精選培訓資料集。
該公司聯合創始人 Gillian Bomarito 表示,以這種方式培訓 KL3M 的決定來自該公司「規避風險」的客戶,例如律師事務所。 「他們擔心出處,需要知道輸出不是基於受污染的數據,」她說。 「我們不依賴合理使用。」客戶有興趣使用生成式人工智慧來完成總結法律文件和起草合約等任務,但與 OpenAI 和 Stability AI 相比。我們不想陷入智力困境。財產訴訟,就像其他公司的情況一樣。
Bommarito 表示,273 Ventures 之前從未大規模研究過語言模型,但決定訓練一個模型作為實驗。 「這是一個測試,看看它是否可能,」她說。該公司創建了自己的培訓資料集 Kelvin Legal DataPack。它包括數千份經過審查是否符合版權法的法律文件。
雖然與OpenAI 和其他聚合大量互聯網的公司編譯的數據集相比,這個數據集很小(大約3500 億個代幣,或數據單位),但KL3M 模型的表現比預期要好得多。Bomarito 表示,這些數據事先經過了審查。 「如果你有乾淨、高品質的數據,你的模型可能不需要那麼大,」她說。整理資料集有助於建立特定於其設計任務的成品人工智慧模型。 273 Ventures 目前正在向希望購買此資料存取權限的客戶提供候補名單。
白板
希望模仿 KL3M 的公司將來可能會以免費、非侵權資料集的形式找到更多幫助。週三,研究人員發布了他們聲稱的最大的可用於純粹由公共領域內容組成的語言模型的人工智慧資料集。 Common Corpus,顧名思義,是與用於訓練 OpenAI 的 GPT-3 文字產生模型的資料大小大致相同的文字集合,並發佈在開源 AI 平台 Hugging Face 上。
該資料集是根據美國國會圖書館和法國國家圖書館數位化的公共領域報紙等來源建構的。 通用語料庫計畫協調員 Pierre-Carl Langlais 稱其為「足夠大的語料庫,足以培訓最先進的法學碩士」。在大人工智慧術語中,該資料集包含 5 億個代幣,人們普遍認為 OpenAI 最強大的模型是在數萬億個代幣上進行訓練的。