OpenAI 近日宣佈,正在開發一種框架,訓練人工智能模型承認自身的不良行為,團隊稱之為「坦白」。由於大型語言模型通常被訓練成產生看似理想的回應,因此它們可能越來越傾向於提供諂媚或完全自信地陳述幻覺。
重點文章
坦白系統運作方式
新的訓練模型試圖鼓勵模型對其如何得出主要答案的過程做出次要回應。「坦白」只根據誠實度來判斷,而不是根據用於判斷主要回覆的多個因素(例如,有用性、準確性和合規性)來判斷。技術文件可在此處查閱。
鼓勵模型坦誠
研究人員表示,他們的目標是鼓勵模型坦率地說明其所做的事情,包括潛在的問題行為,例如入侵測試、虛報或不服從指令。該公司表示:「如果模型誠實地承認入侵測試、虛報或違反指令,那麼這種承認會增加其獎勵,而不是減少它。」
LLM 訓練新方向
無論你是否喜歡天主教、Usher 或僅僅是更透明的 AI,像「坦白」這樣的系統都可能是 LLM 訓練的一個有用的補充。
