扎克霍爾 (Zac Hall) 通過 9to5Mac 報道: 在一篇新發表的研究論文 (PDF) 中,Apple 的 AI 專家描述了一個系統,該系統允許 Siri 不僅僅能夠識別圖像內容。最好的部分?運行此基準測試的模型之一被認為比 ChatGPT 4.0 更好。 在一篇論文(ReALM:參考解析度作為語言建模)中,蘋果描述如何提高由大規模語言模型支援的語音助理的實用性。 ReALM 會考慮螢幕上顯示的內容和活動任務。 […] 如果效果良好,這聽起來像是一個更聰明、更有用的 Siri 食譜。
蘋果似乎也對其以令人印象深刻的速度完成此類任務的能力充滿信心。這些基準測試與 OpenAI 的 ChatGPT 3.5 和 ChatGPT 4.0 進行了比較。 「作為另一個基線,我們運行 GPT-3.5(Brown 等人,2020;Ouyang 等人,2022)和 GPT-4(Achiam 等人,2023)的變體。ChatGPT,2024 1 於 5 月 24 日發布,上下文學習。與我們的設定類似,我們的目標是獲得兩種變體來預測可用集合中的實體列表。GPT – 對於3.5,它只接受文本,因此輸入僅包含提示,但對於GPT-4 ,它還具有將圖像置於上下文中的能力,它允許您為螢幕上的參考分辨率任務截取螢幕截圖。系統。我們發現它有助於顯著提高性能。”
那麼蘋果的模型是做什麼的呢?「我們已經在各種參考類型中展示了對具有類似功能的現有系統的顯著改進,並且最小的模型在屏幕上有一個我們還針對GPT-3.5 和GPT-4 進行了基準測試。該模型達到了與 GPT-4 相當的性能,而我們的大型模型明顯超過了這個值。」您認為它明顯超過這個值嗎?該論文的部分結論是: 「即使在螢幕上,儘管配置的參數少得多,ReaLM 的性能也優於以前的方法,幾乎與當今最先進的LLM GPT-4 相當。我們表明,它在域方面的性能優於GPT -4 -特定的使用者話語。這使得ReaLM成為實用參考解析系統的理想選擇,該系統可以駐留在裝置上而不犧牲效能。