3 limites de salutations, où est passé votre limite de Claude Code ? Un bug de cache de 28 jours, et une réponse officielle qui vous encourage à "l'utiliser avec parcimonie."
4-17 %. C'est le taux de réussite du cache de prompt pour Claude Code au cours du mois dernier. Le niveau normal est de 97-99 %.
Cela signifie que lorsque vous reprenez une session précédente, Claude Code ne réutilise pas le contexte précédemment traité, mais traite tout depuis le début à chaque fois, consommant des crédits à un rythme 10 à 20 fois plus élevé que la normale. Vous pourriez penser que vous poursuivez une conversation, mais en réalité, vous commencez une toute nouvelle conversation à prix plein à chaque fois.

Ces données proviennent de la surveillance proxy de l'indépendant ArkNill. En mettant en place un proxy transparent, il a enregistré chaque requête entre Claude Code et l'API Anthropic, découvrant au moins deux bugs de cache côté client qui ont empêché le serveur API de faire correspondre les préfixes de conversation mis en cache, forçant une reconstruction complète des tokens à chaque tour.

Le graphique ci-dessus montre une comparaison des taux de réussite du cache à travers trois étapes. Pendant les versions v2.1.69 à v2.1.89 (la période du bug), le taux de réussite du cache de la version autonome n'était que de 4 à 17 %. Après avoir corrigé un bug critique dans la version v2.1.90, le taux de réussite du cache de démarrage à froid est revenu à 47-99,7 %. Avec la version v2.1.91, le taux de réussite du cache stable a récupéré à 97-99 %.
Un détail notable du graphique : la plage dans v2.1.90 est assez large (47 % à 99,7 %) car le cache doit encore "se réchauffer" lorsque la session vient d'être reprise, ce qui entraîne des taux de réussite faibles lors des premiers tours, mais revient rapidement à la normale. Dans la version bugée, ce réchauffement ne se produit jamais — le taux de réussite du cache reste toujours à 14 500 tokens de prompt système, avec l'historique complet de la conversation entièrement facturé à chaque fois.
28 Jours, 20 Versions
Ce bug n'est pas du type introduit dans une mise à jour et corrigé dans la suivante. Selon les enregistrements de publication du registre npm, la version v2.1.69 qui a introduit le bug a été publiée le 4 mars, et la version v2.1.90 qui a corrigé le bug a été publiée le 1er avril. Il y avait 28 jours entre les deux, couvrant 20 versions.

La chronologie a révélé un détail fascinant. Après l'introduction du bug le 4 mars, les utilisateurs ne se sont pas immédiatement plaints à grande échelle. Ce n'est que le 23 mars que les plaintes ont éclaté en masse, presque trois semaines plus tard. La raison est que, selon l'analyse du problème GitHub #41930, du 13 au 28 mars, Anthropic avait une promotion de quota 2x en cours (doublant pendant les heures creuses), ce qui a objectivement masqué l'impact du bug. Après la fin de la promotion, la consommation du bug de cache est revenue aux niveaux de facturation normaux, et les quotas des utilisateurs ont instantanément "s'évaporé".
La réponse d'Anthropic n'a pas été rapide. Le 26 mars, trois jours après l'éruption des plaintes des utilisateurs, l'ingénieur Thariq Shihipar a annoncé sur son compte personnel X que la limite des heures de pointe (jours de semaine de 5h à 11h PT) avait été resserrée. Le 30 mars, Anthropic a admis sur Reddit que le "taux auquel les utilisateurs atteignaient leur quota dépassait largement les attentes," le classant comme la priorité absolue de l'équipe. Ce n'est que le 1er avril que la membre de l'équipe Lydia Hallie a publié les résultats de l'enquête officielle.
Tout au long du processus, Anthropic n'a publié aucun article de blog, n'a pas envoyé de notifications par e-mail, ni mis à jour la page de statut. Toute communication officielle a été faite uniquement par le biais des publications personnelles des ingénieurs sur les réseaux sociaux et de quelques commentaires sur Reddit.
Combien avez-vous payé, et combien de temps pouvez-vous l'utiliser ?
Le problème GitHub #41930 a recueilli des centaines de rapports d'utilisateurs. Le cas le plus extrême était celui d'un utilisateur d'abonnement Max 20x (200 $/mois), dont la fenêtre de 5 heures a été entièrement consommée en 19 minutes. Les utilisateurs Max 5x (100 $/mois) ont signalé que leur fenêtre de 5 heures était épuisée en 90 minutes. Selon The Letter Two, certains utilisateurs ont affirmé qu'un simple "bonjour" consommait 13 % de leur quota de session. Un utilisateur Pro (20 $/mois) sur Discord a mentionné que son quota "s'épuisait chaque lundi et ne se réinitialisait que le samedi," avec seulement 12 jours d'utilisation normale en 30 jours.

D'après les tests de référence d'ArkNill, dans la version bug v2.1.89, le quota de 100 % du plan Max 20x serait épuisé en environ 70 minutes. Il a également calculé le coût d'une seule opération --resume pour une session de contexte de 500K tokens, qui est d'environ 0,15 $, car le système rejoue entièrement tout le contexte.
« Vous le tenez mal »
L'enquête de Lydia Hallie a confirmé deux points : d'abord, il y a effectivement eu un durcissement des limites de consommation aux heures de pointe, et ensuite, il y a eu une augmentation de la consommation de jetons dans le contexte d'un million de jetons. Elle a mentionné que l'équipe avait corrigé certains bugs mais a souligné que « aucun des bugs n'a conduit à une surfacturation ».
Elle a ensuite fourni quatre recommandations de frugalité :
1. Utilisez Sonnet 4.6 au lieu d'Opus (Opus consomme environ deux fois plus) ;
2. Réduisez la profondeur de raisonnement ou désactivez la pensée prolongée lorsque le raisonnement approfondi n'est pas nécessaire ;
3. Ne reprenez pas de longues sessions inactives de plus d'une heure ; commencez plutôt une nouvelle session ;
4. Définissez la variable d'environnement CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000 pour limiter la taille de la fenêtre de contexte.
Aucune mention n'a été faite d'une forme de réinitialisation de quota ou de compensation.
L'animateur de podcast AI, Alex Volkov, a résumé cette réponse par « Vous le tenez mal », soulignant qu'Anthropic lui-même avait défini le contexte d'un million de jetons comme par défaut, promu Opus comme modèle phare, et mis en avant la pensée prolongée comme un argument de vente, mais conseille maintenant aux utilisateurs payants de ne pas utiliser ces fonctionnalités.
L'affirmation de « pas de surfacturation » crée également des tensions avec l'historique des mises à jour de Claude Code. Juste la veille de la réponse de Lydia, la version 2.1.90 a corrigé un bug de régression de cache qui était présent depuis la version 2.1.69 : lors de l'utilisation de --resume pour reprendre une session, les requêtes qui auraient dû toucher le cache déclencheraient un échec complet du cache de prompt, entraînant une facturation complète. La réponse de Lydia n'a pas mentionné cette anomalie de facturation confirmée.

Pour comparaison, le Codex d'OpenAI avait précédemment rencontré des problèmes similaires de consommation anormale de quota. L'approche d'OpenAI était de réinitialiser les quotas des utilisateurs, d'émettre des remboursements de crédit et d'annoncer la suppression du plafond d'utilisation sur Codex en mars. L'approche d'Anthropic est de conseiller aux utilisateurs de rétrograder les modèles, de désactiver les fonctionnalités, de limiter le contexte et d'attribuer la responsabilité à l'utilisation par les utilisateurs.
Anthropic propose un abonnement pour le "modèle le plus puissant + le maximum de contexte + les capacités de raisonnement les plus élevées," facturant des frais de 20 à 200 dollars par mois. Un bug de mise en cache de 28 jours a entraîné une déplétion des quotas des utilisateurs payants à un rythme 10 à 20 fois plus rapide, la réponse officielle étant de l'utiliser avec parcimonie.
Vous pourriez aussi aimer

Comment gagner de l'argent sur Polymarket grâce à l'IA ?

La philosophie d'économie d'argent à l'ère de l'IA : Comment dépenser chaque jeton judicieusement

240 milliards de dollars Dark Forest, la chute de la finance de fer

Rapport du matin | YZi Labs augmente stratégiquement ses investissements dans Predict.fun ; Drift Protocol subit une attaque avec des pertes d'au moins 200 millions de dollars ; x402 de Coinbase rejoint la Linux Foundation

Le rêve de 590 milliards de dollars : Comment la femme Warren Buffett a-t-elle chuté de son piédestal ?

Dialogue avec le fondateur de Pantera : Le bitcoin a atteint sa vitesse d'échappement, les actifs traditionnels sont délaissés

Le dilemme de croissance de Base : tout a été fait comme il faut, mais les utilisateurs continuent de partir

## Outline
H1: Un acteur malveillant s’approprie le contrôle du Drift Protocol Key Takeaways Un incident de sécurité a impacté…

Drift Protocol : Un exploit majeur révèle les limites de la cybersécurité des échanges décentralisés
Key Takeaways Drift Protocol, un DEX basé sur Solana, a subi une attaque de 270 millions de dollars,…

# Outline
H1: DRIFT identifié comme actif d’alerte commerciale par Upbit et Bithumb H2: Contexte de l’annonce H3: Qui sont…

# Wormhole réagit à l’attaque du Drift Protocol et maintient ses opérations malgré les retards possibles
Key Takeaways Wormhole affirme que les actifs des utilisateurs ne sont pas en danger malgré l’attaque contre le…

Bitget lance le projet MEZO avec des rendements de 30,31 % à 1 551,67 % APR
Points Clés Bitget Launchpool accueille le projet MEZO avec une opportunité de dépôt. Les taux de rendement annuel…

Bittensor (TAO) +18% : Ce que les investisseurs ne doivent pas ignorer
Bittensor (TAO) a enregistré une augmentation de plus de 18% en une semaine, marquant une transition de “potentiel”…

BTC USD Réserve : Est-ce le bon moment pour acheter ?
Le Bitcoin est actuellement en difficulté pour maintenir son niveau de support de 70 000 $ après une…

Nasdaq et Talos Débloquent $35 Milliards de Collatéral Piégé
Nasdaq et Talos s’associent pour liquider $35 milliards de collatéral stagnants dans les échanges crypto. L’intégration des systèmes…

Prédiction du Prix du Bitcoin : BTC Devient un Actif Refugie Selon un Analyste de Bloomberg
Les ETF d’or, tels que GLD et IAU, ont subi des sorties substantielles de 3,8 milliards de dollars,…

Le Prix de Bittensor (TAO) Renforce-t-il—Une Rupture Au-dessus de la Résistance est-elle Imminente ?
Le prix du Bittensor (TAO) a enregistré une hausse impressionnante de 66% au cours du mois, atteignant 300…

Balancer Labs Ferme Après une Exploitation de 128M$, Prévoit une Restructuration Réduite
Balancer Labs a été victime d’une attaque majeure le 3 novembre 2025, aboutissant à une perte de 128…
