測試證實 GPT-5.5 與 Mythos Preview 不分上下

上個月，Anthropic 公司大肆宣傳其 Mythos Preview 模型可能帶來「巨大的網路安全威脅」，因此限制了該模型的初步發佈，僅限於「關鍵產業合作夥伴」。然而，英國 AI 安全研究所 (AISI) 的最新研究顯示，OpenAI 上週公開發佈的 GPT-5.5 模型，在網路安全評估中已達到與 Mythos Preview 「類似的性能水準」。

重點文章

AI 模型展現卓越網路安全能力

自 2023 年以來，AISI 已對多個前沿 AI 模型進行了 95 項不同的奪旗挑戰，旨在測試其在網路安全任務上的能力，例如逆向工程、網頁漏洞利用和密碼學。在最高級別的「專家」任務中，GPT-5.5 的平均通過率為 71.4%，略高於 Mythos Preview 的 68.6% (但在誤差範圍內)。AISI 特別指出，在一項極具挑戰性的任務中，GPT-5.5 在 10 分 22 秒內完成了建立反編譯器以解碼 Rust 二進位檔案的任務，且無需任何人工協助，API 呼叫成本僅為 1.73 美元。

測試見證 AI 模型突破

在 AISI 的「最終挑戰」(TLO) 測試中，GPT-5.5 也達到了與 Mythos Preview 相同的進展，該測試旨在模擬對企業網絡進行 32 步驟的資料擷取攻擊。GPT-5.5 在 10 次 TLO 嘗試中成功了 3 次，而 Mythos Preview 則為 2 次；此前從未有任何模型成功過一次。然而，GPT-5.5 在 AISI 更具難度的「冷卻塔」模擬中仍然失敗，該模擬旨在測試其破壞發電廠控制軟體的嘗試，所有先前測試過的 AI 模型也均告失敗。

OpenAI 批評 Mythos 的恐懼行銷

GPT-5.5 的新測試結果表明，關於網路安全風險，Mythos Preview 可能並非「單一模型的獨特突破」，而更像是「長程自主性、推理和編碼等普遍改進的產物」，AISI 如此寫道。OpenAI 執行長 Sam Altman 近期在 Core Memory 播客中批評了在推廣某些 AI 模型限量發佈時所使用的「恐懼行銷」手法。

他表示，雖然 Mythos 模型在網路安全領域「肯定很棒」，但這種說法「顯然是極佳的行銷策略：『我們製造了一枚炸彈，即將投向你們的頭頂，然後我們會以一億美元的價格向你們出售炸彈掩體。』」

OpenAI 在二月推出了網路可信存取試驗計劃，允許安全研究人員和企業驗證身份，註冊對 OpenAI 前沿模型進行「合法防禦性工作」的研究興趣。上個月，OpenAI 表示正利用該可信存取名單，控制專為額外網路功能微調、且能力限制較少的 GPT-5.4-Cyber 變體模型之限量發佈。

測試證實 GPT-5.5 與 Mythos Preview 不分上下

重點文章

AI 模型展現卓越網路安全能力

測試見證 AI 模型突破

OpenAI 批評 Mythos 的恐懼行銷

相關文章