(資料圖)
IT之家 3 月 1 日消息,據 THE DECODER 報道,新一代大語言模型(從 GPT-5 及后續版本開始)在任務需要跨多輪對話完成時,表現依然不佳。研究員菲利普 · 拉班(Philippe Laban)及其團隊在代碼、數據庫、操作指令、數據轉文本、數學計算、文本摘要這六大任務上對現有模型進行了測試。當信息被拆分到多條消息中(分片式),而非集中在單次提示詞里(拼接式)時,模型性能會顯著下降。
IT之家注意到,更新的模型表現略好一些,性能降幅從 39% 縮小到 33%,但問題遠未解決。Python 任務的提升最為明顯,部分模型僅損失 10%–20% 的性能。拉班認為,實際場景中的性能損失可能更嚴重,因為測試只使用了簡單的用戶模擬;如果用戶在對話中途改變想法,性能下降幅度可能會更大。
原始研究發現,調低溫度值(temperature)這類技術微調無法解決這一問題。研究人員建議:一旦出現異常,重新開啟一段新對話,最好先讓模型把所有請求總結一遍,再用這份總結作為新對話的起點。