Nutzungsbasierte Abrechnung

Die gebräuchlichste Abrechnungsart für Textmodelle, in der Regel basierend auf dem Verbrauch von Eingabe- und Ausgabe-Token

Nutzungsbasierte Abrechnung ist die häufigste Abrechnungsart bei Textmodellen.

Einfach gesagt bedeutet das:

Die Inhalte, die du an das Modell sendest, verbrauchen eine bestimmte Anzahl an Token
Die Inhalte, die das Modell an dich zurückgibt, verbrauchen ebenfalls eine bestimmte Anzahl an Token
Das System rechnet die Kosten auf Basis dieses tatsächlichen Verbrauchs ab

Warum die meisten Textmodelle nutzungsbasiert abrechnen

Weil die Länge von Textanfragen stark variieren kann.

Zum Beispiel:

Wenn du nur „Hallo“ sendest, ist der Verbrauch sehr gering
Wenn du einen großen Kontext, lange Prompts oder lange Dokumente sendest und das Modell anschließend eine lange Antwort erzeugen soll, ist der Verbrauch entsprechend höher

Deshalb ist eine nutzungsbasierte Abrechnung fairer und präziser.

Worauf man bei der nutzungsbasierten Abrechnung am meisten achten sollte

Für Einsteiger ist es weniger wichtig, Abrechnungsformeln auswendig zu lernen, sondern vor allem, Folgendes zu verstehen:

Je länger die Eingabe, je mehr Kontext enthalten ist und je länger die Ausgabe ausfällt, desto höher sind in der Regel die Kosten.

Deshalb denken viele am Anfang: „Ich habe doch nur eine einzige Frage gestellt, warum sind die Kosten trotzdem nicht niedrig?“ — weil das Modell möglicherweise nicht nur den letzten Satz sieht, sondern zusätzlich auch:

den bisherigen Gesprächsverlauf
den System-Prompt
zusätzlichen Kontext
Inhalte im Zusammenhang mit Tool-Aufrufen

Häufige Faktoren, die die Kosten beeinflussen

1. Länge der Eingabe

Je länger der Prompt und je mehr Zusatzmaterial mitgegeben wird, desto höher ist die Anzahl der Eingabe-Token.

2. Länge der Ausgabe

Je länger die Antwort des Modells, desto höher ist die Anzahl der Ausgabe-Token.

3. Historischer Kontext

In Multi-Turn-Dialogen kann der Client frühere Chatverläufe zusammen mit der aktuellen Anfrage mitsenden.

4. Das Modell selbst

Verschiedene Modelle haben unterschiedliche Preise. Selbst bei ähnlicher Token-Anzahl können die Kosten daher abweichen.

5. Gruppenstrategie

Für dasselbe Modell können je nach Gruppe unterschiedliche Preisstrategien gelten.

Wie lassen sich die Kosten bei nutzungsbasierter Abrechnung optimieren

Wenn du Kosten sparen möchtest, ist der effektivste Weg meist nicht, „das Modell seltener zu nutzen“, sondern „unnötigen Verbrauch zu reduzieren“.

Empfohlene Vorgehensweisen

Prompts kompakt halten und wiederholte Hintergrundinformationen vermeiden
Die Länge des Nachrichtenverlaufs begrenzen
Das Modell nicht ohne Grund extrem lange Antworten erzeugen lassen
Für unterschiedliche Anwendungsfälle Modelle mit passenden Preisstufen auswählen
Test-Traffic und produktiven Traffic mit unterschiedlichen Keys und Gruppen trennen

Häufige Missverständnisse

Man geht fälschlicherweise davon aus, dass nur die letzte Frage zählt
Man weiß nicht, dass der Client im Hintergrund große Mengen an historischem Kontext mitsendet
Hochpreisige Modelle werden wiederholt für Testzwecke aufgerufen

Kurz erklärt

Der Kern der nutzungsbasierten Abrechnung ist nicht „Wie viel kostet eine Anfrage?“, sondern „Wie viel Eingabe und Ausgabe wurden für diese Anfrage insgesamt verbraucht?“

Wann sollte ich mir dann die Abrechnung pro Anfrage ansehen?

Wenn du hauptsächlich mit Bildern, Videos oder APIs mit fest definierten Aktionen arbeitest, siehe auch:

Abrechnung pro Anfrage

Auf dieser Seite