MoleAPIMoleAPI
文件快速開始基礎知識

按量計費

文字模型最常見的計費方式,通常按輸入和輸出 Token 消耗計費

按量計費 是文字模型中最常見的計費方式。

簡單來說,就是:

  • 你輸入給模型的內容,會消耗一部分 Token
  • 模型回傳給你的內容,也會消耗一部分 Token
  • 系統根據這些實際消耗來結算費用

為什麼大多數文字模型都按量計費

因為文字請求的長度差異很大。

例如:

  • 你發一句「你好」,消耗很少
  • 你發一大段上下文、長提示詞、長文件,再讓模型輸出長答案,消耗就會更多

所以按量計費會更公平,也更精細。

按量計費最值得關注的是什麼

對新手來說,真正重要的不是死記計費公式,而是理解下面這件事:

輸入越長、上下文越多、輸出越長,通常花費就越高。

這也是為什麼很多人一開始覺得「明明只問了一個問題,為什麼費用不低」——因為模型看到的不一定只有最後那一句話,還可能包含:

  • 歷史對話
  • 系統提示詞
  • 附加上下文
  • 工具呼叫相關內容

常見影響成本的因素

1. 輸入長度

提示詞越長、附帶材料越多,輸入 Token 越高。

2. 輸出長度

模型回答越長,輸出 Token 越高。

3. 歷史上下文

在多輪對話場景下,用戶端可能會把前面的聊天記錄一起帶上。

4. 模型本身

不同模型的單價不同,即使 Token 數量相近,費用也可能不同。

5. 分組策略

同一個模型在不同分組下,價格策略也可能不同。

怎麼最佳化按量計費成本

如果你想節省費用,最有效的辦法通常不是「少用模型」,而是「減少無效消耗」。

推薦做法

  • 精簡提示詞,避免重複背景說明
  • 控制歷史訊息長度
  • 不要毫無意義地讓模型輸出超長答案
  • 為不同業務匹配不同價格檔位的模型
  • 用不同 Key 和分組拆分測試流量與正式流量

常見誤區

  • 誤以為只看最後一句提問
  • 不知道用戶端在偷偷攜帶大量歷史上下文
  • 高價模型被測試用途反覆呼叫

一句話理解

按量計費的核心,不是「發一次請求多少錢」,而是「這次請求一共消耗了多少輸入和輸出」。

那我什麼時候看按次計費?

如果你主要在用圖片、影片或固定動作型介面,可以再去看:

這篇文件對您有幫助嗎?

最後更新於

返回首頁網關