Ratio の理解

Ratio の設定は、MoleAPI の課金システムにおける中核的な設定です。モデル Ratio、補完 Ratio、キャッシュ Ratio、グループ Ratio を理解すると、料金ページに表示されている Ratio 情報を読み取れるようになり、ログをもとに「なぜこのリクエストでこれだけ差し引かれたのか」をすばやく照合できるようになります。

Ratio システムの概要

MoleAPI では、ユーザーの Quota 消費を計算するために 4 種類の Ratio を使用します。

モデル Ratio（ModelRatio）：モデル自体の基本課金倍率を定義します
補完 Ratio（CompletionRatio）：出力 token の価格を個別に調整します
キャッシュ Ratio（CacheRatio）：キャッシュヒットした入力 token の価格を個別に調整します
グループ Ratio（GroupRatio）：異なるグループごとに差別化された課金を設定します

Quota と Ratio の関係

MoleAPI では、最終的な課金はすべて Quota ポイントに換算されます。

1 ドル = 500,000 Quota ポイント
ユーザー残高や消費履歴は、本質的には Quota ポイントの増減です
ログではドル表記の明細がよく使われますが、バックエンドでは最終的に Quota ポイントへ換算して差し引かれます

Quota の計算式

従量課金モデル（キャッシュヒットなし）

Quota 消費 = (入力 token 数 + 出力 token 数 × 補完 Ratio) × モデル Ratio × グループ Ratio

従量課金モデル（キャッシュヒットあり）

キャッシュヒット時は、「キャッシュ Ratio」を総額全体に追加で掛けるのではなく、キャッシュされた入力 token の部分にのみ適用されます。

Quota 消費 = (通常入力 token 数 + キャッシュ token 数 × キャッシュ Ratio + 出力 token 数 × 補完 Ratio) × モデル Ratio × グループ Ratio

回数課金モデル（固定価格）

Quota 消費 = モデル固定価格 × グループ Ratio × 500,000

音声モデル（特別処理、new-api 内部で自動処理）

Quota 消費 = (テキスト入力 token + テキスト出力 token × 補完 Ratio + 音声入力 token × 音声 Ratio + 音声出力 token × 音声 Ratio × 音声補完 Ratio) × モデル Ratio × グループ Ratio

事前消費と事後消費の仕組み

MoleAPI では、事前消費と事後消費の 2 段階課金を採用しています。

事前消費：リクエスト送信前に、見積もり token 数に基づいて先に仮引き落としします
事後消費：リクエスト完了後に、実際の token 数で再計算します
差額調整：実際の費用と仮引き落とし額が一致しない場合は、自動で追加徴収または返却します

事前消費 Quota = 見積もり token 数 × モデル Ratio × グループ Ratio
実際 Quota = 実際の token 数 × モデル Ratio × グループ Ratio
Quota 調整 = 実際 Quota - 事前消費 Quota

モデル Ratio の設定

モデル Ratio は、異なる AI モデルの基本課金倍率を定義します。システムでは、一般的なモデルに対してあらかじめデフォルト値が設定されています。

一般的なモデル Ratio の例

モデル名	モデル Ratio	補完 Ratio	公式価格（入力）	公式価格（出力）
gpt-4o	1.25	4	$2.5/1M Tokens	$10/1M Tokens
gpt-3.5-turbo	0.25	2	$0.5/1M Tokens	$1.0/1M Tokens
gpt-4o-mini	0.075	4	$0.15/1M Tokens	$0.6/1M Tokens
o1	7.5	4	$15/1M Tokens	$60/1M Tokens

Ratio の意味は、次のように理解できます。

モデル Ratio が高いほど、全体の基本コストは高くなります
補完 Ratio が高いほど、出力 token は高くなります
キャッシュ Ratio が低いほど、キャッシュヒット時のコスト削減効果は大きくなります
グループ Ratio が低いほど、ユーザーに対する最終的な実際の課金額は低くなります

補完 Ratio の設定

補完 Ratio は、出力 token に対して追加課金を行うために使用されます。これは主に、「出力は入力より高い」という実際のコスト差を反映するためです。

デフォルトの補完 Ratio

モデルタイプ	公式価格（入力）	公式価格（出力）	補完 Ratio	説明
gpt-4o	$2.5/1M Tokens	$10/1M Tokens	4	出力は入力の 4 倍
gpt-3.5-turbo	$0.5/1M Tokens	$1.0/1M Tokens	2	出力は入力の 2 倍
gpt-image-1	$5/1M Tokens	$40/1M Tokens	8	出力は入力の 8 倍
gpt-4o-mini	$0.15/1M Tokens	$0.6/1M Tokens	4	出力は入力の 4 倍
その他のモデル	1	1	1	入出力を同一料金で課金

料金ページで Ratio を確認する方法

料金ページのモデルカードには、モデル Ratio、補完 Ratio、グループ Ratio が直接表示されます。まずこの 3 つの値を見ることで、「同じ 1 回の呼び出しなのに、なぜこのモデルは別のモデルより高いのか」をすばやく判断できます。

MoleAPI の料金ページにあるモデルカード。gpt-3.5-turbo の入出力価格、モデル Ratio 0.25、補完 Ratio 2、グループ Ratio 1 を表示

キャッシュ Ratio の設定

キャッシュ Ratio は、多くの人が初めてログを見たときに最も誤解しやすいポイントです。

キャッシュ Ratio はどこに適用されるのか

これはキャッシュヒットした入力 tokenにのみ適用され、次には適用されません。

キャッシュヒットしていない通常の入力 token
出力 token
リクエスト全体の総額

つまり、1 件のリクエスト内に通常入力とキャッシュ入力が同時に存在する場合、それぞれ異なる価格で計算された後、まとめてグループ Ratio が掛けられます。

どのような場合にログでキャッシュ Ratio が表示されるか

上流モデルがプロンプトキャッシュをサポートしており、かつ今回のリクエストで実際にキャッシュヒットした場合、ログには通常、追加で次の項目が表示されます。

キャッシュ Tokens
キャッシュ Ratio
キャッシュ価格

キャッシュヒットしなかった場合、これらの行は最終費用の計算には参加しません。

グループ Ratio の設定

グループ Ratio を使用すると、異なる Channel グループごとに差別化された価格を設定でき、たとえばデフォルトグループ、割引グループ、転送グループ、試用グループなど、異なる戦略を実現できます。

グループ Ratio の設定例

{
  "default": 1,
  "discount": 0.8,
  "relay": 0.3,
  "trial": 0.1
}

Q：グループ Ratio はどのように適用されますか？

A：グループ Ratio は、最終段階でリクエスト全体に対して一括で適用されます。これは「最終的にユーザー向けに適用される価格係数」と考えることができます。

Q：補完 Ratio の役割は何ですか？

A：補完 Ratio は主に、入力 token と出力 token のコスト差を調整するために使用されます。多くのモデルでは出力価格が入力価格より明らかに高いため、ログでは出力 token が補完 Ratio に基づいて個別換算されます。

Q：キャッシュ Ratio の役割は何ですか？

A：キャッシュ Ratio は、キャッシュヒットした入力 token にのみ影響します。キャッシュ Ratio が低いほど、キャッシュヒット時のその部分の実コストは低くなります。

QA 計算例

以下の例は抽象的な数式ではなく、ログ内のフィールドに基づいて 1 ステップずつ直接計算したものです。

Q1：キャッシュ付きのリクエストで、なぜログに「キャッシュ価格」という行が追加で表示されるのですか？

これは今回のリクエストでキャッシュヒットしたためで、システムが入力 token を 2 つの部分に分けているからです。

通常の入力 token：入力価格で計算
キャッシュヒットした token：入力価格にキャッシュ Ratio を掛けて計算

以下のログでは、キャッシュ Tokens 3072、キャッシュ Ratio 1、キャッシュ価格 を確認できます。

キャッシュヒットありのリクエストログ。キャッシュ Tokens 3072、モデル Ratio 0.125、キャッシュ Ratio 1、出力 Ratio 8、および入力価格、キャッシュ価格、最終金額を表示

ログ内の数値に基づく計算は次のとおりです。

入力費用 = 62 / 1M × $0.250000 = $0.0000155
キャッシュ費用 = 3072 / 1M × $0.250000 = $0.000768
出力費用 = 1193 / 1M × $2.000000 = $0.002386
最終費用 = (入力費用 + キャッシュ費用 + 出力費用) × グループ Ratio 1
         = $0.0031695
         ≈ $0.003170

これを Quota ポイントに換算すると、おおよそ次のとおりです。

$0.003170 × 500,000 ≈ 1,585 Quota ポイント

Q2：キャッシュヒットがない場合、費用はどのように照合すればよいですか？

キャッシュヒットがない場合は、通常入力と出力の 2 つだけを見ればよく、キャッシュ価格は表示されません。

キャッシュヒットなしのリクエストログ。モデル Ratio 0.125、キャッシュ Ratio 1、出力 Ratio 8 が表示され、通常入力と出力のみで最終金額を計算

ログ内のフィールドに対応する計算は次のとおりです。

入力費用 = 827 / 1M × $0.250000 = $0.00020675
出力費用 = 338 / 1M × $2.000000 = $0.000676
最終費用 = (入力費用 + 出力費用) × グループ Ratio 1
         = $0.00088275
         ≈ $0.000883

Quota ポイントに換算すると、おおよそ次のとおりです。

$0.000883 × 500,000 ≈ 441 Quota ポイント

Q3：キャッシュ Ratio とグループ Ratio が同時にある場合、どちらを先に計算すべきですか？

まず入力、キャッシュ、出力の 3 つの費用をそれぞれ計算し、その後でまとめてグループ Ratio を掛けます。以下のログには、同時に次の値が含まれています。

モデル Ratio 1.25
キャッシュ Ratio 0.1
出力 Ratio 6
グループ Ratio 0.3

グループ Ratio とキャッシュ Ratio を含むリクエストログ。キャッシュ Tokens 30208、モデル Ratio 1.25、キャッシュ Ratio 0.1、出力 Ratio 6、グループ Ratio 0.3、最終金額を表示

ログの価格明細に基づく計算は次のとおりです。

通常入力費用 = 357360 / 1M × $2.500000 = $0.893400
キャッシュ費用 = 30208 / 1M × ($2.500000 × 0.1) = $0.007552
出力費用 = 100 / 1M × $15.000000 = $0.001500
最終費用 = (通常入力費用 + キャッシュ費用 + 出力費用) × グループ Ratio 0.3
         = ($0.893400 + $0.007552 + $0.001500) × 0.3
         = $0.2707356
         ≈ $0.270736

これが、ログ内で次の項目が個別表示される理由でもあります。

入力価格：$2.500000 / 1M tokens
出力価格：$15.000000 / 1M tokens
キャッシュ価格：$2.500000 × 0.1 = $0.250000 / 1M tokens

Q4：モデルカードの大まかな高低を Ratio から逆算するにはどうすればよいですか？

最もシンプルな順序は次のとおりです。

まずモデル Ratio を見て、そのモデルの基本コストが高いかどうかを判断する
次に補完 Ratio を見て、出力内容が明らかに高くなるかどうかを判断する
モデルがキャッシュをサポートしている場合は、さらにキャッシュ Ratio を見て、キャッシュヒット後にどれだけ節約できるかを判断する
最後にグループ Ratio を見て、現在のグループで実際にユーザー向けへ適用される価格を判断する

料金ページであるモデルについて次のように表示されている場合：

モデル Ratio が高い
補完 Ratio が高い
グループ Ratio も高い

そのモデルは、長い出力が発生するシナリオでは通常かなり高くなります。逆に、キャッシュ Ratio が低く、キャッシュヒット率が高い場合、その種のリクエストの実費用はより大きく下がります。

より多くの課金ルールについては、よくある質問を参照してください。

このページの目次