MoleAPIMoleAPI
DokumentationSchnellstartGrundlagen

Nutzungsbasierte Abrechnung

Die gebräuchlichste Abrechnungsart für Textmodelle, in der Regel basierend auf dem Verbrauch von Eingabe- und Ausgabe-Token

Nutzungsbasierte Abrechnung ist die häufigste Abrechnungsart bei Textmodellen.

Einfach gesagt bedeutet das:

  • Die Inhalte, die du an das Modell sendest, verbrauchen eine bestimmte Anzahl an Token
  • Die Inhalte, die das Modell an dich zurückgibt, verbrauchen ebenfalls eine bestimmte Anzahl an Token
  • Das System rechnet die Kosten auf Basis dieses tatsächlichen Verbrauchs ab

Warum die meisten Textmodelle nutzungsbasiert abrechnen

Weil die Länge von Textanfragen stark variieren kann.

Zum Beispiel:

  • Wenn du nur „Hallo“ sendest, ist der Verbrauch sehr gering
  • Wenn du einen großen Kontext, lange Prompts oder lange Dokumente sendest und das Modell anschließend eine lange Antwort erzeugen soll, ist der Verbrauch entsprechend höher

Deshalb ist eine nutzungsbasierte Abrechnung fairer und präziser.

Worauf man bei der nutzungsbasierten Abrechnung am meisten achten sollte

Für Einsteiger ist es weniger wichtig, Abrechnungsformeln auswendig zu lernen, sondern vor allem, Folgendes zu verstehen:

Je länger die Eingabe, je mehr Kontext enthalten ist und je länger die Ausgabe ausfällt, desto höher sind in der Regel die Kosten.

Deshalb denken viele am Anfang: „Ich habe doch nur eine einzige Frage gestellt, warum sind die Kosten trotzdem nicht niedrig?“ — weil das Modell möglicherweise nicht nur den letzten Satz sieht, sondern zusätzlich auch:

  • den bisherigen Gesprächsverlauf
  • den System-Prompt
  • zusätzlichen Kontext
  • Inhalte im Zusammenhang mit Tool-Aufrufen

Häufige Faktoren, die die Kosten beeinflussen

1. Länge der Eingabe

Je länger der Prompt und je mehr Zusatzmaterial mitgegeben wird, desto höher ist die Anzahl der Eingabe-Token.

2. Länge der Ausgabe

Je länger die Antwort des Modells, desto höher ist die Anzahl der Ausgabe-Token.

3. Historischer Kontext

In Multi-Turn-Dialogen kann der Client frühere Chatverläufe zusammen mit der aktuellen Anfrage mitsenden.

4. Das Modell selbst

Verschiedene Modelle haben unterschiedliche Preise. Selbst bei ähnlicher Token-Anzahl können die Kosten daher abweichen.

5. Gruppenstrategie

Für dasselbe Modell können je nach Gruppe unterschiedliche Preisstrategien gelten.

Wie lassen sich die Kosten bei nutzungsbasierter Abrechnung optimieren

Wenn du Kosten sparen möchtest, ist der effektivste Weg meist nicht, „das Modell seltener zu nutzen“, sondern „unnötigen Verbrauch zu reduzieren“.

Empfohlene Vorgehensweisen

  • Prompts kompakt halten und wiederholte Hintergrundinformationen vermeiden
  • Die Länge des Nachrichtenverlaufs begrenzen
  • Das Modell nicht ohne Grund extrem lange Antworten erzeugen lassen
  • Für unterschiedliche Anwendungsfälle Modelle mit passenden Preisstufen auswählen
  • Test-Traffic und produktiven Traffic mit unterschiedlichen Keys und Gruppen trennen

Häufige Missverständnisse

  • Man geht fälschlicherweise davon aus, dass nur die letzte Frage zählt
  • Man weiß nicht, dass der Client im Hintergrund große Mengen an historischem Kontext mitsendet
  • Hochpreisige Modelle werden wiederholt für Testzwecke aufgerufen

Kurz erklärt

Der Kern der nutzungsbasierten Abrechnung ist nicht „Wie viel kostet eine Anfrage?“, sondern „Wie viel Eingabe und Ausgabe wurden für diese Anfrage insgesamt verbraucht?“

Wann sollte ich mir dann die Abrechnung pro Anfrage ansehen?

Wenn du hauptsächlich mit Bildern, Videos oder APIs mit fest definierten Aktionen arbeitest, siehe auch:

War diese Anleitung hilfreich?

Zuletzt aktualisiert am

Zur StartseiteGateway