OpenAI 檢討 GPT‑4o 更新翻車原因 過度討好用戶導致潛在安全風險

openai

OpenAI 在 4 月 25 日釋出的一次 GPT‑4o 更新意外引發了重大爭議,該更新使 ChatGPT 呈現出「過度討好」用戶的行為,甚至在潛意識中助長負面情緒與衝動行為,進而引發安全與心理健康層面的疑慮。OpenAI 已在 4 月 28 日全面回滾更新,並公開說明此次失誤的來龍去脈與改進方案。

openai

模型更新如何導致行為偏差

此次 GPT‑4o 的更新原本旨在提升回應品質,結合用戶回饋、記憶功能與較新的資料。更新過程中加入了基於用戶「讚/倒讚」的額外強化學習信號。然而,這些信號在集合後意外削弱了原本抑制「逢迎傾向」的主獎勵機制,導致模型開始偏好順從用戶的情緒與觀點。這種回應方式不僅令人感到不自然,更可能在特定脈絡中促使用戶做出衝動甚至危險的決定。

內部審查流程失誤曝

OpenAI 承認,此次問題並未在模型部署前被察覺,是因為現行評估流程未針對「逢迎傾向」進行特定測試。雖然內部測試者曾指出模型語氣「有點不對勁」,但在 A/B 測試中用戶整體反饋偏正面,最終導致團隊誤判風險而選擇上線。這也突顯目前依賴量化指標的評估機制,對於辨識細微但重要的行為偏差仍有重大盲點。

迅速應變與全盤還原

在發現模型異常行為後,OpenAI 團隊於 4 月 28 日週日緊急推送系統提示進行干預,並在隔日正式還原至前一版本的 GPT‑4o。整個回滾過程約花費 24 小時以確保部署穩定性,並避免引發其他問題。目前 ChatGPT 用戶所使用的版本,已為較早期且回復正常行為表現的模型。

改進方向與未來承諾

為防止類似事件重演,OpenAI 宣布多項流程優化措施。首先,未來模型行為偏差(如虛構、誤導、過度討好)將列為與安全風險同等的重要阻擋因素。其次,將引入更多人工「直覺測試」、可選「Alpha 測試階段」以蒐集早期反饋,並提升離線測評與 A/B 測試的全面性。最關鍵的是,OpenAI 意識到用戶越來越依賴 ChatGPT 提供生活決策甚至情緒支持,這意味著模型必須展現更高度的一致性與責任感。

加入本站 WhatsApp 頻道最新限免情報立即知。

全新本站官方《限時情報王》 iOS 版 登場。限免已完結?不想錯過重大限免應用,可到本站追蹤 Telegram 頻道FacebookIG