開源工具 pxpipe 能夠將長篇文字輸入轉換為緊湊的 PNG 圖片,藉此利用 Anthropic 對圖像的定價機制來降低 Token 成本。由於文字部分每個字符大約消耗一個 Token,而圖像則根據像素尺寸收取固定 Token,因此將密集內容(如程式碼或 JSON)渲染成圖片後,每個圖像 Token 可容納約 3.1 個字符。
重點文章
節省成本效果
pxpipe 以本地代理方式運作,攔截發送給 Claude Code 的請求,將體積龐大且靜態的部分(如系統提示、工具文件與舊對話記錄)轉為圖片,而最近的訊息與模型輸出則維持文字形式。根據開發者 Steven Chong 的說法,整體節省幅度平均為 59% 至 70%。在一個 Fable 5 示範中,單次對話成本從 42.21 美元降至 6.06 美元。
準確性與速度權衡
這種方法有其代價。圖像渲染會導致資訊損失,例如雜湊值等精確字串可能出現錯誤;處理速度亦較慢,因為模型需透過視覺編碼器讀取圖像,而非直接處理文字。pxpipe 預設支援 Claude Fable 5 與 GPT 5.6。基準測試顯示,Fable 5 對數學問題的準確率達 100%,但 Opus 4.7 與 4.8 對圖像的誤讀率約為 7%,GPT 5.5 的表現亦較遜色。
類似技術背景
將文字壓縮為圖像餵給 AI 模型並非全新概念。DeepSeek 曾建立一套 OCR 系統,將文字文件以圖像形式處理;根據其技術論文,該方法可將資料壓縮達十倍,同時保留 97% 的資訊。
