Facturation à l’usage
Le mode de facturation le plus courant pour les modèles de texte consiste généralement à facturer la consommation de Token en entrée et en sortie
La facturation à l’usage est le mode de facturation le plus courant pour les modèles de texte.
En termes simples :
- le contenu que vous envoyez au modèle consomme une certaine quantité de Token
- le contenu renvoyé par le modèle consomme également une certaine quantité de Token
- le système calcule les frais en fonction de cette consommation réelle
Pourquoi la plupart des modèles de texte utilisent une facturation à l’usage
Parce que la longueur des requêtes textuelles varie fortement.
Par exemple :
- si vous envoyez simplement « Bonjour », la consommation est très faible
- si vous envoyez un long contexte, un prompt détaillé, un document volumineux, puis demandez au modèle de produire une réponse longue, la consommation sera plus élevée
La facturation à l’usage est donc plus équitable et plus précise.
Quel est le point le plus important à retenir sur la facturation à l’usage
Pour les débutants, l’essentiel n’est pas de mémoriser une formule de tarification, mais de bien comprendre ceci :
Plus l’entrée est longue, plus le contexte est riche, et plus la sortie est longue, plus le coût est généralement élevé.
C’est aussi pour cela que beaucoup de personnes se disent au début : « Je n’ai pourtant posé qu’une seule question, pourquoi le coût n’est-il pas si bas ? » — parce que le modèle ne voit pas forcément uniquement la dernière phrase, mais peut aussi recevoir :
- l’historique de la conversation
- le prompt système
- du contexte additionnel
- du contenu lié aux appels d’outils
Facteurs courants qui influencent le coût
1. Longueur de l’entrée
Plus le prompt est long et plus les éléments joints sont nombreux, plus le nombre de Token en entrée est élevé.
2. Longueur de la sortie
Plus la réponse du modèle est longue, plus le nombre de Token en sortie est élevé.
3. Contexte historique
Dans un scénario de conversation multi-tours, le client peut inclure l’ensemble des messages précédents.
4. Le modèle lui-même
Le prix unitaire varie selon les modèles ; même avec un nombre de Token proche, le coût peut être différent.
5. Stratégie de Group
Pour un même modèle, la stratégie tarifaire peut également varier selon le Group.
Comment optimiser les coûts de facturation à l’usage
Si vous cherchez à réduire les coûts, la méthode la plus efficace n’est généralement pas de « moins utiliser le modèle », mais de « réduire la consommation inutile ».
Bonnes pratiques recommandées
- simplifier les prompts et éviter les explications de contexte répétitives
- limiter la longueur de l’historique des messages
- éviter de demander au modèle des réponses inutilement très longues
- associer chaque cas d’usage à un modèle correspondant à un niveau de prix adapté
- utiliser des Key et des Group distincts pour séparer le trafic de test du trafic de production
Erreurs fréquentes
- penser que seul le dernier message est pris en compte
- ne pas savoir que le client envoie discrètement une grande quantité de contexte historique
- laisser un modèle coûteux être invoqué de manière répétée à des fins de test
À retenir en une phrase
Le point clé de la facturation à l’usage n’est pas « combien coûte une requête », mais « combien d’entrée et de sortie cette requête a consommé au total ».
Quand dois-je consulter la facturation par requête ?
Si vous utilisez principalement des interfaces d’image, de vidéo ou à action fixe, vous pouvez également consulter :
Ce guide vous a-t-il aidé ?
Dernière mise à jour le