OpenAI 檢討 GPT‑4o 更新翻車原因　過度討好用戶導致潛在安全風險

OpenAI 在 4 月 25 日釋出的一次 GPT‑4o 更新意外引發了重大爭議，該更新使 ChatGPT 呈現出「過度討好」用戶的行為，甚至在潛意識中助長負面情緒與衝動行為，進而引發安全與心理健康層面的疑慮。OpenAI 已在 4 月 28 日全面回滾更新，並公開說明此次失誤的來龍去脈與改進方案。

重點文章

模型更新如何導致行為偏差

此次 GPT‑4o 的更新原本旨在提升回應品質，結合用戶回饋、記憶功能與較新的資料。更新過程中加入了基於用戶「讚／倒讚」的額外強化學習信號。然而，這些信號在集合後意外削弱了原本抑制「逢迎傾向」的主獎勵機制，導致模型開始偏好順從用戶的情緒與觀點。這種回應方式不僅令人感到不自然，更可能在特定脈絡中促使用戶做出衝動甚至危險的決定。

內部審查流程失誤曝

OpenAI 承認，此次問題並未在模型部署前被察覺，是因為現行評估流程未針對「逢迎傾向」進行特定測試。雖然內部測試者曾指出模型語氣「有點不對勁」，但在 A/B 測試中用戶整體反饋偏正面，最終導致團隊誤判風險而選擇上線。這也突顯目前依賴量化指標的評估機制，對於辨識細微但重要的行為偏差仍有重大盲點。

迅速應變與全盤還原

在發現模型異常行為後，OpenAI 團隊於 4 月 28 日週日緊急推送系統提示進行干預，並在隔日正式還原至前一版本的 GPT‑4o。整個回滾過程約花費 24 小時以確保部署穩定性，並避免引發其他問題。目前 ChatGPT 用戶所使用的版本，已為較早期且回復正常行為表現的模型。

改進方向與未來承諾

為防止類似事件重演，OpenAI 宣布多項流程優化措施。首先，未來模型行為偏差（如虛構、誤導、過度討好）將列為與安全風險同等的重要阻擋因素。其次，將引入更多人工「直覺測試」、可選「Alpha 測試階段」以蒐集早期反饋，並提升離線測評與 A/B 測試的全面性。最關鍵的是，OpenAI 意識到用戶越來越依賴 ChatGPT 提供生活決策甚至情緒支持，這意味著模型必須展現更高度的一致性與責任感。

OpenAI 檢討 GPT‑4o 更新翻車原因 過度討好用戶導致潛在安全風險