開源工具 pxpipe 將文字藏入 PNG　節省 Fable 5 與 GPT 5.6 Token 成本達七成

開源工具 pxpipe 能夠將長篇文字輸入轉換為緊湊的 PNG 圖片，藉此利用 Anthropic 對圖像的定價機制來降低 Token 成本。由於文字部分每個字符大約消耗一個 Token，而圖像則根據像素尺寸收取固定 Token，因此將密集內容（如程式碼或 JSON）渲染成圖片後，每個圖像 Token 可容納約 3.1 個字符。

重點文章

節省成本效果

pxpipe 以本地代理方式運作，攔截發送給 Claude Code 的請求，將體積龐大且靜態的部分（如系統提示、工具文件與舊對話記錄）轉為圖片，而最近的訊息與模型輸出則維持文字形式。根據開發者 Steven Chong 的說法，整體節省幅度平均為 59% 至 70%。在一個 Fable 5 示範中，單次對話成本從 42.21 美元降至 6.06 美元。

準確性與速度權衡

這種方法有其代價。圖像渲染會導致資訊損失，例如雜湊值等精確字串可能出現錯誤；處理速度亦較慢，因為模型需透過視覺編碼器讀取圖像，而非直接處理文字。pxpipe 預設支援 Claude Fable 5 與 GPT 5.6。基準測試顯示，Fable 5 對數學問題的準確率達 100%，但 Opus 4.7 與 4.8 對圖像的誤讀率約為 7%，GPT 5.5 的表現亦較遜色。

類似技術背景

將文字壓縮為圖像餵給 AI 模型並非全新概念。DeepSeek 曾建立一套 OCR 系統，將文字文件以圖像形式處理；根據其技術論文，該方法可將資料壓縮達十倍，同時保留 97% 的資訊。

開源工具 pxpipe 將文字藏入 PNG 節省 Fable 5 與 GPT 5.6 Token 成本達七成

重點文章

節省成本效果

準確性與速度權衡

類似技術背景

相關文章

開源工具 pxpipe 將文字藏入 PNG　節省 Fable 5 與 GPT 5.6 Token 成本達七成