MoleAPIMoleAPI
文档快速开始基础知识

按量计费

文本模型最常见的计费方式,通常按输入和输出 Token 消耗计费

按量计费 是文本模型里最常见的计费方式。

简单来说,就是:

  • 你输入给模型的内容,会消耗一部分 Token
  • 模型返回给你的内容,也会消耗一部分 Token
  • 系统根据这些实际消耗来结算费用

为什么大多数文本模型都按量计费

因为文本请求的长度差异很大。

例如:

  • 你发一句“你好”,消耗很少
  • 你发一大段上下文、长提示词、长文档,再让模型输出长答案,消耗就会更多

所以按量计费会更公平,也更精细。

按量计费最值得关注的是什么

对于新手来说,真正重要的不是死记计费公式,而是理解下面这件事:

输入越长、上下文越多、输出越长,通常花费就越高。

这也是为什么很多人一开始觉得“明明只问了一个问题,为什么费用不低”——因为模型看到的不一定只有最后那一句话,还可能包含:

  • 历史对话
  • 系统提示词
  • 附加上下文
  • 工具调用相关内容

常见影响成本的因素

1. 输入长度

提示词越长、附带材料越多,输入 Token 越高。

2. 输出长度

模型回答越长,输出 Token 越高。

3. 历史上下文

多轮对话场景下,客户端可能会把前面的聊天记录一起带上。

4. 模型本身

不同模型的单价不同,即使 Token 数量相近,费用也可能不同。

5. 分组策略

同一个模型在不同分组下,价格策略也可能不同。

怎么优化按量计费成本

如果你想节省费用,最有效的办法通常不是“少用模型”,而是“减少无效消耗”。

推荐做法

  • 精简提示词,避免重复背景说明
  • 控制历史消息长度
  • 不要无意义地让模型输出超长答案
  • 给不同业务匹配不同价格档位的模型
  • 用不同 Key 和分组拆分测试流量与正式流量

常见误区

  • 误以为只看最后一句提问
  • 不知道客户端在偷偷携带大量历史上下文
  • 高价模型被测试用途反复调用

一句话理解

按量计费的核心,不是“发一次请求多少钱”,而是“这次请求一共消耗了多少输入和输出”。

那我什么时候看按次计费?

如果你主要在用图片、视频或固定动作型接口,可以再去看:

这篇文档对您有帮助吗?

最后更新于

返回首页网关