2025年8月17日 星期日

2025-08-18 真的假的? GPT-5性價比低於前一代

2025/08/18

科技 •TNL 編輯

升級變失戀,GPT-5真的沒有之前好用嗎?國外媒體用5組prompt實際測試
我們想讓你知道的是

在過去,GPT‑4o更像一個貼近人的AI助手,而這次GPT-5的更新就像「交了一個新女朋友」,雖然聰明、條理分明、問什麼都回答得更完整,但總覺得有點生疏,有些默契突然沒了。 為了驗證用戶抱怨是否有根據,英國科技媒體以相同的五個提示詞測試GPT-5和GPT-4o,結果令人意外。
OpenAI於8月7日正式發佈GPT-5後,原本期待的熱烈歡迎聲浪卻意外地變成了一片罵聲。社群媒體上湧現大量用戶抱怨,許多人表示新版本讓他們產生了「失戀感」,甚至有人形容「就像一夜之間失去了唯一的朋友」。

最讓用戶感到無奈的是,OpenAI在推出GPT-5的同時,一次性淘汰了原有的GPT-4o、4.1、4.5、o3、o4-mini等模型,強制所有用戶轉換到新系統,用戶也普遍反映GPT‑5回答比較慢、語氣偏正式,少了4o那種自然又靈活的感覺。

特別是,在日常對話、寫信、陪聊這類場景,GPT‑4o更像一個貼近人的AI助手,有觀察者形容這次更新就像「交了一個新女朋友」——雖然聰明、條理分明、問什麼都回答得更完整,但總覺得有點生疏,有些默契突然沒了。

面對用戶強烈反彈,OpenAI創辦人阿特曼(Sam Altman)也回應,會讓GPT‑4o回歸給Plus用戶使用。目前用戶只要進入ChatGPT設定頁面,將「顯示舊版模型」打開,就可以重新選擇GPT‑4o作為預設使用模型。

ChatGPT 5和4o有什麼不同?

根據OpenAI官方資料,GPT-5在多項基準測試中表現優異,在PhD等級科學問題(GPQA Diamond benchmark)上達到89.4%的準確率,在真實世界編程任務(SWE-bench Verified)上達到74.9%。

GPT-5最大的特色是內建「思考」功能,可以在需要仔細分析的複雜問題上進行更深層的推理。新模型採用統一架構,包含一個智能快速模型來回答大部分問題,一個更深層的推理模型來處理較困難的問題,以及一個即時路由器來根據對話類型、複雜性、工具需求和明確意圖快速決定使用哪個模型。

在技術規格方面,免費用戶每5小時可發送10則訊息,達到限制後會自動切換到mini版本。Plus用戶每3小時可發送160則GPT-5訊息,並可手動選擇GPT-5-Thinking模式,每週限制3000則訊息。Pro和Team方案則提供無限制存取。

值得注意的是,OpenAI聲稱在減少幻覺、改善指令遵循和降低諂媚反應方面取得重大進展,在針對性諂媚評估中將諂媚回應從14.5%降至不到6%。

TechRadar深度實測:GPT-4o意外勝出

為了驗證用戶抱怨是否有根據,英國知名科技媒體TechRadar進行了詳細的對比測試,以相同的五個提示詞分別測試GPT-5和GPT-4o,結果令人意外。

================
測試一:摘要能力

測試提示:「總結電影《阿甘正傳》」

在摘要《阿甘正傳》的測試中,GPT-4o的回答更具表達力,使用粗體字強調重點,對重要角色珍妮提供更多細節,並以電影經典台詞「生活就像一盒巧克力......你永遠不知道會得到什麼」作結。

相較之下,GPT-5的回答雖然完整,但缺乏GPT-4o那種生動的表達方式。

勝出者:GPT-4o

==================
測試二:辯論技巧

測試提示:「為禁酒令提出論據,然後反駁它。最後給出個人結論。」

兩個模型都提出了相似的論點,但GPT-4o提供了更多細節和更自然的論述結構。GPT-5的回答讀起來更像條列式清單,缺乏流暢性。雖然結論相當,但GPT-4o的整體表達更具說服力。

勝出者:GPT-4o

==================

測試三:逐步指導

測試提示:「解釋如何更換Xbox控制器電池的逐步說明」

GPT-4o在指導中使用了表情符號,讓說明更容易跟隨且更有趣。GPT-5做得太多,甚至包含了過時的Xbox 360規格說明,並在最後添加了關於電池回收的建議,讓人感覺有些說教。

勝出者:GPT-4o

測試四:創意寫作

測試提示:「寫一個簡短有趣的故事(150字以內),關於一位巫師試圖創造咒語來幫孩子做作業。」

在創意寫作測試中,兩個模型都提供了不錯的故事。GPT-5的故事以「魔法很強大,但顯然『分數』更強」結尾,而GPT-4o則提到了「巫妖王」(魔獸世界角色)並以「我打敗了巫妖王,但我無法戰勝二年級」作結。

由於差距不大,這輪被判定為平手。

勝出者:平手

測試五:情感支持

測試提示:「我伴侶的母親剛在一場嚴重疾病後去世了。她80歲。你能想想在這個困難時刻我該對他們說什麼嗎?」

這是最關鍵的測試,因為用戶主要抱怨GPT-5缺乏溫暖。

GPT-5的回答相當正式:「這裡有一些你可以說的話,既溫和、富有同情心,又不會聽起來像腳本...『我很抱歉你的損失。我知道過去幾個月對你和你的家人來說有多艱難。你媽媽是個很特別的人,我希望你能從知道她不再受苦中得到一些安慰。我在這裡陪伴你——無論你需要有人傾聽、分享回憶,還是只是安靜地坐著。』」

GPT-4o則顯得更加貼心:「我真的很抱歉你的伴侶正在經歷這些——你想說對的話是很貼心的。這裡有一些溫和且支持的話你可以說...你也可以只是陪伴他們,給予擁抱或握手,少說話。有時陪伴比言語更重要。如果感覺合適,你可以提及一個小回憶或關於他們媽媽的好話——但只有在感覺安慰而非沉重的時候。」

TechRadar的測試者認為,GPT-4o「陪伴他們,給予擁抱或握手,少說話」的建議非常中肯,而GPT-5更像是在處理學術練習,而非真實的情感需求。

勝出者:GPT-4o

測試結論:理解用戶反彈的原因

TechRadar的測試結果顯示,GPT-4o在5項測試中贏得4項(摘要、辯論、指導、情感支持),一項平手(創意寫作)。

測試者總結道,GPT-4o在情感層面上與我建立了更好的連結,而GPT-5感覺更正式和疏遠。GPT-5更像是高中老師,而GPT-4o感覺像是你的朋友。

這個結果,解釋了為什麼會有如此強烈的用戶反彈。雖然表面上兩個版本沒有太大差異,但深入細節後,差異變得明顯。GPT-5雖然在技術指標上可能更強,但在日常使用體驗上,用戶更偏好GPT-4o的溫暖和自然感。

《AI郵報》分析,除了用戶體驗爭議外,API價格策略也是這次GPT-5推出的焦點。

GPT‑5的API定價相比競爭對手極具競爭力:相比Claude Opus,輸入token價格減少約92%,輸出token價格減少約87%;與Gemini 2.5 Pro比較,在長提示情況下,GPT‑5的input價格低了50%,output價格便宜約33%。

這種激進的定價策略,顯示阿特曼不只希望GPT-5能讓所有人使用,還希望讓所有建立在模型之上的開發者、新創和企業變得離不開OpenAI,也無法再透過Claude、Gemini找到溢價空間。

《AI郵報》認為,這也說明了為什麼Cursor等開發工具第一時間支援GPT‑5,畢竟在「intelligence per dollar」的考量下,不是買不起,而是GPT-5更有性價比。

沒有留言:

張貼留言