按量计费

文本模型最常见的计费方式，通常按输入和输出 Token 消耗计费

按量计费 是文本模型里最常见的计费方式。

简单来说，就是：

为什么大多数文本模型都按量计费

因为文本请求的长度差异很大。

例如：

所以按量计费会更公平，也更精细。

对于新手来说，真正重要的不是死记计费公式，而是理解下面这件事：

输入越长、上下文越多、输出越长，通常花费就越高。

这也是为什么很多人一开始觉得“明明只问了一个问题，为什么费用不低”——因为模型看到的不一定只有最后那一句话，还可能包含：

提示词越长、附带材料越多，输入 Token 越高。

模型回答越长，输出 Token 越高。

多轮对话场景下，客户端可能会把前面的聊天记录一起带上。

不同模型的单价不同，即使 Token 数量相近，费用也可能不同。

同一个模型在不同分组下，价格策略也可能不同。

如果你想节省费用，最有效的办法通常不是“少用模型”，而是“减少无效消耗”。

一句话理解

按量计费的核心，不是“发一次请求多少钱”，而是“这次请求一共消耗了多少输入和输出”。

如果你主要在用图片、视频或固定动作型接口，可以再去看：