Facturation à l’usage

Le mode de facturation le plus courant pour les modèles de texte consiste généralement à facturer la consommation de Token en entrée et en sortie

La facturation à l’usage est le mode de facturation le plus courant pour les modèles de texte.

En termes simples :

le contenu que vous envoyez au modèle consomme une certaine quantité de Token
le contenu renvoyé par le modèle consomme également une certaine quantité de Token
le système calcule les frais en fonction de cette consommation réelle

Pourquoi la plupart des modèles de texte utilisent une facturation à l’usage

Parce que la longueur des requêtes textuelles varie fortement.

Par exemple :

si vous envoyez simplement « Bonjour », la consommation est très faible
si vous envoyez un long contexte, un prompt détaillé, un document volumineux, puis demandez au modèle de produire une réponse longue, la consommation sera plus élevée

La facturation à l’usage est donc plus équitable et plus précise.

Quel est le point le plus important à retenir sur la facturation à l’usage

Pour les débutants, l’essentiel n’est pas de mémoriser une formule de tarification, mais de bien comprendre ceci :

Plus l’entrée est longue, plus le contexte est riche, et plus la sortie est longue, plus le coût est généralement élevé.

C’est aussi pour cela que beaucoup de personnes se disent au début : « Je n’ai pourtant posé qu’une seule question, pourquoi le coût n’est-il pas si bas ? » — parce que le modèle ne voit pas forcément uniquement la dernière phrase, mais peut aussi recevoir :

l’historique de la conversation
le prompt système
du contexte additionnel
du contenu lié aux appels d’outils

Facteurs courants qui influencent le coût

1. Longueur de l’entrée

Plus le prompt est long et plus les éléments joints sont nombreux, plus le nombre de Token en entrée est élevé.

2. Longueur de la sortie

Plus la réponse du modèle est longue, plus le nombre de Token en sortie est élevé.

3. Contexte historique

Dans un scénario de conversation multi-tours, le client peut inclure l’ensemble des messages précédents.

4. Le modèle lui-même

Le prix unitaire varie selon les modèles ; même avec un nombre de Token proche, le coût peut être différent.

5. Stratégie de Group

Pour un même modèle, la stratégie tarifaire peut également varier selon le Group.

Comment optimiser les coûts de facturation à l’usage

Si vous cherchez à réduire les coûts, la méthode la plus efficace n’est généralement pas de « moins utiliser le modèle », mais de « réduire la consommation inutile ».

Bonnes pratiques recommandées

simplifier les prompts et éviter les explications de contexte répétitives
limiter la longueur de l’historique des messages
éviter de demander au modèle des réponses inutilement très longues
associer chaque cas d’usage à un modèle correspondant à un niveau de prix adapté
utiliser des Key et des Group distincts pour séparer le trafic de test du trafic de production

Erreurs fréquentes

penser que seul le dernier message est pris en compte
ne pas savoir que le client envoie discrètement une grande quantité de contexte historique
laisser un modèle coûteux être invoqué de manière répétée à des fins de test

À retenir en une phrase

Le point clé de la facturation à l’usage n’est pas « combien coûte une requête », mais « combien d’entrée et de sortie cette requête a consommé au total ».

Quand dois-je consulter la facturation par requête ?

Si vous utilisez principalement des interfaces d’image, de vidéo ou à action fixe, vous pouvez également consulter :

Facturation par requête

Sur cette page