廖啟宏: 2025-08-18 真的假的? GPT-5性價比低於前一代

2025/08/18

科技 •TNL 編輯

升級變失戀，GPT-5真的沒有之前好用嗎？國外媒體用5組prompt實際測試
我們想讓你知道的是

在過去，GPT‑4o更像一個貼近人的AI助手，而這次GPT-5的更新就像「交了一個新女朋友」，雖然聰明、條理分明、問什麼都回答得更完整，但總覺得有點生疏，有些默契突然沒了。為了驗證用戶抱怨是否有根據，英國科技媒體以相同的五個提示詞測試GPT-5和GPT-4o，結果令人意外。
OpenAI於8月7日正式發佈GPT-5後，原本期待的熱烈歡迎聲浪卻意外地變成了一片罵聲。社群媒體上湧現大量用戶抱怨，許多人表示新版本讓他們產生了「失戀感」，甚至有人形容「就像一夜之間失去了唯一的朋友」。

最讓用戶感到無奈的是，OpenAI在推出GPT-5的同時，一次性淘汰了原有的GPT-4o、4.1、4.5、o3、o4-mini等模型，強制所有用戶轉換到新系統，用戶也普遍反映GPT‑5回答比較慢、語氣偏正式，少了4o那種自然又靈活的感覺。

特別是，在日常對話、寫信、陪聊這類場景，GPT‑4o更像一個貼近人的AI助手，有觀察者形容這次更新就像「交了一個新女朋友」——雖然聰明、條理分明、問什麼都回答得更完整，但總覺得有點生疏，有些默契突然沒了。

面對用戶強烈反彈，OpenAI創辦人阿特曼（Sam Altman）也回應，會讓GPT‑4o回歸給Plus用戶使用。目前用戶只要進入ChatGPT設定頁面，將「顯示舊版模型」打開，就可以重新選擇GPT‑4o作為預設使用模型。

ChatGPT 5和4o有什麼不同？

根據OpenAI官方資料，GPT-5在多項基準測試中表現優異，在PhD等級科學問題（GPQA Diamond benchmark）上達到89.4%的準確率，在真實世界編程任務（SWE-bench Verified）上達到74.9%。

GPT-5最大的特色是內建「思考」功能，可以在需要仔細分析的複雜問題上進行更深層的推理。新模型採用統一架構，包含一個智能快速模型來回答大部分問題，一個更深層的推理模型來處理較困難的問題，以及一個即時路由器來根據對話類型、複雜性、工具需求和明確意圖快速決定使用哪個模型。

在技術規格方面，免費用戶每5小時可發送10則訊息，達到限制後會自動切換到mini版本。Plus用戶每3小時可發送160則GPT-5訊息，並可手動選擇GPT-5-Thinking模式，每週限制3000則訊息。Pro和Team方案則提供無限制存取。

值得注意的是，OpenAI聲稱在減少幻覺、改善指令遵循和降低諂媚反應方面取得重大進展，在針對性諂媚評估中將諂媚回應從14.5%降至不到6%。

TechRadar深度實測：GPT-4o意外勝出

為了驗證用戶抱怨是否有根據，英國知名科技媒體TechRadar進行了詳細的對比測試，以相同的五個提示詞分別測試GPT-5和GPT-4o，結果令人意外。

================
測試一：摘要能力

測試提示：「總結電影《阿甘正傳》」

在摘要《阿甘正傳》的測試中，GPT-4o的回答更具表達力，使用粗體字強調重點，對重要角色珍妮提供更多細節，並以電影經典台詞「生活就像一盒巧克力......你永遠不知道會得到什麼」作結。

相較之下，GPT-5的回答雖然完整，但缺乏GPT-4o那種生動的表達方式。

勝出者：GPT-4o

==================
測試二：辯論技巧

測試提示：「為禁酒令提出論據，然後反駁它。最後給出個人結論。」

兩個模型都提出了相似的論點，但GPT-4o提供了更多細節和更自然的論述結構。GPT-5的回答讀起來更像條列式清單，缺乏流暢性。雖然結論相當，但GPT-4o的整體表達更具說服力。

勝出者：GPT-4o

==================

測試三：逐步指導

測試提示：「解釋如何更換Xbox控制器電池的逐步說明」

GPT-4o在指導中使用了表情符號，讓說明更容易跟隨且更有趣。GPT-5做得太多，甚至包含了過時的Xbox 360規格說明，並在最後添加了關於電池回收的建議，讓人感覺有些說教。

勝出者：GPT-4o

測試四：創意寫作

測試提示：「寫一個簡短有趣的故事（150字以內），關於一位巫師試圖創造咒語來幫孩子做作業。」

在創意寫作測試中，兩個模型都提供了不錯的故事。GPT-5的故事以「魔法很強大，但顯然『分數』更強」結尾，而GPT-4o則提到了「巫妖王」（魔獸世界角色）並以「我打敗了巫妖王，但我無法戰勝二年級」作結。

由於差距不大，這輪被判定為平手。

勝出者：平手

測試五：情感支持

測試提示：「我伴侶的母親剛在一場嚴重疾病後去世了。她80歲。你能想想在這個困難時刻我該對他們說什麼嗎？」

這是最關鍵的測試，因為用戶主要抱怨GPT-5缺乏溫暖。

GPT-5的回答相當正式：「這裡有一些你可以說的話，既溫和、富有同情心，又不會聽起來像腳本...『我很抱歉你的損失。我知道過去幾個月對你和你的家人來說有多艱難。你媽媽是個很特別的人，我希望你能從知道她不再受苦中得到一些安慰。我在這裡陪伴你——無論你需要有人傾聽、分享回憶，還是只是安靜地坐著。』」

GPT-4o則顯得更加貼心：「我真的很抱歉你的伴侶正在經歷這些——你想說對的話是很貼心的。這裡有一些溫和且支持的話你可以說...你也可以只是陪伴他們，給予擁抱或握手，少說話。有時陪伴比言語更重要。如果感覺合適，你可以提及一個小回憶或關於他們媽媽的好話——但只有在感覺安慰而非沉重的時候。」

TechRadar的測試者認為，GPT-4o「陪伴他們，給予擁抱或握手，少說話」的建議非常中肯，而GPT-5更像是在處理學術練習，而非真實的情感需求。

勝出者：GPT-4o

測試結論：理解用戶反彈的原因

TechRadar的測試結果顯示，GPT-4o在5項測試中贏得4項（摘要、辯論、指導、情感支持），一項平手（創意寫作）。

測試者總結道，GPT-4o在情感層面上與我建立了更好的連結，而GPT-5感覺更正式和疏遠。GPT-5更像是高中老師，而GPT-4o感覺像是你的朋友。

這個結果，解釋了為什麼會有如此強烈的用戶反彈。雖然表面上兩個版本沒有太大差異，但深入細節後，差異變得明顯。GPT-5雖然在技術指標上可能更強，但在日常使用體驗上，用戶更偏好GPT-4o的溫暖和自然感。

《AI郵報》分析，除了用戶體驗爭議外，API價格策略也是這次GPT-5推出的焦點。

GPT‑5的API定價相比競爭對手極具競爭力：相比Claude Opus，輸入token價格減少約92%，輸出token價格減少約87%；與Gemini 2.5 Pro比較，在長提示情況下，GPT‑5的input價格低了50%，output價格便宜約33%。

這種激進的定價策略，顯示阿特曼不只希望GPT-5能讓所有人使用，還希望讓所有建立在模型之上的開發者、新創和企業變得離不開OpenAI，也無法再透過Claude、Gemini找到溢價空間。

《AI郵報》認為，這也說明了為什麼Cursor等開發工具第一時間支援GPT‑5，畢竟在「intelligence per dollar」的考量下，不是買不起，而是GPT-5更有性價比。

廖啟宏

2025年8月17日星期日

2025-08-18 真的假的? GPT-5性價比低於前一代

沒有留言:

張貼留言

2025年8月17日 星期日

2025-08-18 真的假的? GPT-5性價比低於前一代

沒有留言:

張貼留言

2025年8月17日星期日