Claude Opus 4.5 被偷偷「降智」？一個網站告訴你 AI 模型當前可靠性

近日很多盛讚 Claude Code的言論，不過作為長期用戶，這幾天 Opus 4.5 有明顯「降智」問題。如何得知一個模型有沒有被降智？長期用戶會感受得到，一些預期它能 1 Take 完成的工作，卻要做 2-3 次才達標。

很主觀？對！不過，給大家介紹一個名為 Stupid-Meter 的網站。它會分析當前各大主流模型的可靠度，而且不停更新。

執筆之時，可靠度最高是 SONNET 4 （不是 4.5），而 GPT 5.2 排第二，至於 Opus 4.5 只排第 5。至於 Gemini 3 Pro Preview 則排第10。我不太肯定 SONNET 4 是否真的比 4.5 穩定，但筆者認為近期GPT 5.2 Codex（High)比Opus 4.5 可靠。至於Gemini 3 Pro 只排第 10 也很合理，誰用誰知道。

AI 模型有時會因為用戶人數太多，需求太高而降低其輸出質素。當然，也有可能因為一些 bug 或故障，影響輸出表現。因此，經常查看一下 Stupid-Meter，再決定用什麼模型是一個良好的習慣。

Claude Opus 4.5 被偷偷「降智」？一個網站告訴你 AI 模型當前可靠性

重點文章

相關文章