MoleAPIMoleAPI
ドキュメントクイックスタート基礎知識

従量課金

テキストモデルで最も一般的な課金方式で、通常は入力および出力 Token の消費量に応じて課金されます

従量課金 は、テキストモデルで最も一般的な課金方式です。

簡単に言うと、次のとおりです。

  • モデルに入力した内容に応じて、一部の Token が消費されます
  • モデルから返される内容に応じて、一部の Token が消費されます
  • システムは、これらの実際の消費量に基づいて料金を精算します

なぜ多くのテキストモデルは従量課金なのか

テキストリクエストの長さには大きな差があるためです。

たとえば、次のようなケースがあります。

  • 「こんにちは」と一言送るだけなら、消費はごくわずかです
  • 長いコンテキスト、長いプロンプト、長文のドキュメントを入力し、さらに長い回答を出力させる場合は、消費量が多くなります

そのため、従量課金のほうがより公平で、より細かく管理できます。

従量課金で最も重要なのは何か

初心者にとって本当に重要なのは、課金式を丸暗記することではなく、次の点を理解することです。

入力が長いほど、コンテキストが多いほど、出力が長いほど、通常は費用も高くなります。

これが、多くの人が最初に「質問は 1 つしかしていないのに、なぜ料金が安くないのか」と感じる理由でもあります。モデルが見ているのは、最後の 1 文だけとは限らず、次のような内容が含まれている可能性があるためです。

  • 会話履歴
  • システムプロンプト
  • 追加コンテキスト
  • ツール呼び出しに関連する内容

コストに影響する一般的な要因

1. 入力の長さ

プロンプトが長いほど、付随する資料が多いほど、入力 Token は増えます。

2. 出力の長さ

モデルの回答が長いほど、出力 Token は増えます。

3. 会話履歴のコンテキスト

マルチターン会話のシナリオでは、クライアントが以前のチャット履歴もまとめて送信する場合があります。

4. モデル自体

モデルごとに単価は異なるため、Token 数が近くても料金が異なる場合があります。

5. 分组戦略

同じモデルでも、異なる分组では価格戦略が異なる場合があります。

従量課金のコストを最適化するには

費用を抑えたい場合、最も効果的なのは通常、「モデルの利用回数を減らす」ことではなく、「無駄な消費を減らす」ことです。

推奨される方法

  • プロンプトを簡潔にし、重複する背景説明を避ける
  • 履歴メッセージの長さを制御する
  • 意味もなくモデルに超長文の回答を生成させない
  • 業務ごとに価格帯の異なるモデルを適切に使い分ける
  • 異なる Key と分组を使って、テストトラフィックと本番トラフィックを分離する

よくある誤解

  • 最後の 1 文の質問だけが見られていると思い込む
  • クライアントが大量の履歴コンテキストを裏で含めていることを知らない
  • 高価なモデルがテスト用途で繰り返し呼び出されている

一言で理解する

従量課金の本質は、「1 回のリクエストがいくらか」ではなく、「そのリクエストで入力と出力を合計でどれだけ消費したか」です。

では、いつリクエスト単位課金を確認すればよいですか?

主に画像、動画、または固定動作型のインターフェースを使っている場合は、次も参照してください。

このガイドはいかがですか?

最終更新日

ホームへ戻るゲートウェイ