原版 的 這個故事 出現在 廣達雜誌。
兩年前,在一個名為Beyond the Imitation Game Benchmark (BIG Bench) 的專案中,450 名研究人員創建了204 個基準,旨在測試為ChatGPT 等聊天機器人提供支援的大規模語言模型的功能。我建立了一個任務清單。對於大多數任務,隨著模型規模的擴大,效能可預測且平穩地提高。模型越大,性能越好。然而,對於其他任務,效能的提升並不那麼順利。性能有一段時間接近零,但隨後性能飆升。其他研究也發現了類似的績效跳躍。
作者形容這是一個「開創性」的行動。其他研究人員將其比喻為物理學中的相變,例如液態水凍結成冰。 在2022 年8 月發表的一篇論文中,研究人員表示,這些行為不僅令人驚訝,而且不可預測,加劇了有關人工智慧安全性、潛力和風險的不斷演變的爭論。他指出有必要提供資訊。他們稱這種能力為「湧現」。該術語用於描述僅在系統達到高度複雜性時才會出現的集體行為。
但事情可能沒那麼簡單。史丹佛大學三位研究人員發表的一篇新論文認為,這些能力的突然出現只是研究者衡量法學碩士表現的結果。他們認為,這種能力既不是不可預測的,也不是突然的。 史丹佛大學計算機科學家、論文的主要作者 Sanmi Koejo 表示:“這種轉變比人們想像的更容易預測。” “出現的有力理由不僅與我們選擇衡量它的方式有關,也與模型的作用有關。”
由於這些模型已經變得如此之大,我們目前正在驗證和研究這種行為。透過分析大型文字資料集(來自書籍、網路搜尋和維基百科等線上資源的單字)並尋找經常一起出現的單字之間的連結來訓練大規模語言模型。大小是用參數來衡量的,就像單字的連接方式一樣。參數越多,LLM 可以發現的連線就越多。 GPT-2 有 15 億個參數,而支援 ChatGPT 的 LLM GPT-3.5 使用了 3500 億個參數。 GPT-4 於 2023 年 3 月首次亮相,目前支援 Microsoft Copilot,據報導使用了 1.75 兆美元。
這種快速成長帶來了令人難以置信的性能和效率提升,任何人都會認為足夠大的 LLM 可以完成較小模型無法執行的任務,包括尚未接受過訓練的任務。史丹佛大學三人組將這家新創公司視為“海市蜃樓”,並認識到法學碩士隨著規模的擴大會變得更加有效。事實上,更大的模型會增加複雜性,並且應該能夠更好地處理更困難和多樣化的問題。但他們認為,這種改進是否看起來平滑且可預測,還是參差不齊且尖銳,是由於指標的選擇或缺乏測試範例,而不是模型的內部運作。