従量課金

テキストモデルで最も一般的な課金方式で、通常は入力および出力 Token の消費量に応じて課金されます

従量課金 は、テキストモデルで最も一般的な課金方式です。

簡単に言うと、次のとおりです。

なぜ多くのテキストモデルは従量課金なのか

テキストリクエストの長さには大きな差があるためです。

たとえば、次のようなケースがあります。

そのため、従量課金のほうがより公平で、より細かく管理できます。

初心者にとって本当に重要なのは、課金式を丸暗記することではなく、次の点を理解することです。

入力が長いほど、コンテキストが多いほど、出力が長いほど、通常は費用も高くなります。

これが、多くの人が最初に「質問は 1 つしかしていないのに、なぜ料金が安くないのか」と感じる理由でもあります。モデルが見ているのは、最後の 1 文だけとは限らず、次のような内容が含まれている可能性があるためです。

プロンプトが長いほど、付随する資料が多いほど、入力 Token は増えます。

モデルの回答が長いほど、出力 Token は増えます。

マルチターン会話のシナリオでは、クライアントが以前のチャット履歴もまとめて送信する場合があります。

モデルごとに単価は異なるため、Token 数が近くても料金が異なる場合があります。

同じモデルでも、異なる分组では価格戦略が異なる場合があります。

費用を抑えたい場合、最も効果的なのは通常、「モデルの利用回数を減らす」ことではなく、「無駄な消費を減らす」ことです。

一言で理解する

従量課金の本質は、「1 回のリクエストがいくらか」ではなく、「そのリクエストで入力と出力を合計でどれだけ消費したか」です。

主に画像、動画、または固定動作型のインターフェースを使っている場合は、次も参照してください。