3 limites de salutations, où est passé votre limite de Claude Code ? Un bug de cache de 28 jours, et une réponse officielle qui vous encourage à "l'utiliser avec parcimonie."

By: blockbeats|2026/04/03 13:18:46

4-17 %. C'est le taux de réussite du cache de prompt pour Claude Code au cours du mois dernier. Le niveau normal est de 97-99 %.

Cela signifie que lorsque vous reprenez une session précédente, Claude Code ne réutilise pas le contexte précédemment traité, mais traite tout depuis le début à chaque fois, consommant des crédits à un rythme 10 à 20 fois plus élevé que la normale. Vous pourriez penser que vous poursuivez une conversation, mais en réalité, vous commencez une toute nouvelle conversation à prix plein à chaque fois.

3 limites de salutations, où est passé votre limite de Claude Code ? Un bug de cache de 28 jours, et une réponse officielle qui vous encourage à

Ces données proviennent de la surveillance proxy de l'indépendant ArkNill. En mettant en place un proxy transparent, il a enregistré chaque requête entre Claude Code et l'API Anthropic, découvrant au moins deux bugs de cache côté client qui ont empêché le serveur API de faire correspondre les préfixes de conversation mis en cache, forçant une reconstruction complète des tokens à chaque tour.

Le graphique ci-dessus montre une comparaison des taux de réussite du cache à travers trois étapes. Pendant les versions v2.1.69 à v2.1.89 (la période du bug), le taux de réussite du cache de la version autonome n'était que de 4 à 17 %. Après avoir corrigé un bug critique dans la version v2.1.90, le taux de réussite du cache de démarrage à froid est revenu à 47-99,7 %. Avec la version v2.1.91, le taux de réussite du cache stable a récupéré à 97-99 %.

Un détail notable du graphique : la plage dans v2.1.90 est assez large (47 % à 99,7 %) car le cache doit encore "se réchauffer" lorsque la session vient d'être reprise, ce qui entraîne des taux de réussite faibles lors des premiers tours, mais revient rapidement à la normale. Dans la version bugée, ce réchauffement ne se produit jamais — le taux de réussite du cache reste toujours à 14 500 tokens de prompt système, avec l'historique complet de la conversation entièrement facturé à chaque fois.

28 Jours, 20 Versions

Ce bug n'est pas du type introduit dans une mise à jour et corrigé dans la suivante. Selon les enregistrements de publication du registre npm, la version v2.1.69 qui a introduit le bug a été publiée le 4 mars, et la version v2.1.90 qui a corrigé le bug a été publiée le 1er avril. Il y avait 28 jours entre les deux, couvrant 20 versions.

La chronologie a révélé un détail fascinant. Après l'introduction du bug le 4 mars, les utilisateurs ne se sont pas immédiatement plaints à grande échelle. Ce n'est que le 23 mars que les plaintes ont éclaté en masse, presque trois semaines plus tard. La raison est que, selon l'analyse du problème GitHub #41930, du 13 au 28 mars, Anthropic avait une promotion de quota 2x en cours (doublant pendant les heures creuses), ce qui a objectivement masqué l'impact du bug. Après la fin de la promotion, la consommation du bug de cache est revenue aux niveaux de facturation normaux, et les quotas des utilisateurs ont instantanément "s'évaporé".

La réponse d'Anthropic n'a pas été rapide. Le 26 mars, trois jours après l'éruption des plaintes des utilisateurs, l'ingénieur Thariq Shihipar a annoncé sur son compte personnel X que la limite des heures de pointe (jours de semaine de 5h à 11h PT) avait été resserrée. Le 30 mars, Anthropic a admis sur Reddit que le "taux auquel les utilisateurs atteignaient leur quota dépassait largement les attentes," le classant comme la priorité absolue de l'équipe. Ce n'est que le 1er avril que la membre de l'équipe Lydia Hallie a publié les résultats de l'enquête officielle.

Tout au long du processus, Anthropic n'a publié aucun article de blog, n'a pas envoyé de notifications par e-mail, ni mis à jour la page de statut. Toute communication officielle a été faite uniquement par le biais des publications personnelles des ingénieurs sur les réseaux sociaux et de quelques commentaires sur Reddit.

Combien avez-vous payé, et combien de temps pouvez-vous l'utiliser ?

Le problème GitHub #41930 a recueilli des centaines de rapports d'utilisateurs. Le cas le plus extrême était celui d'un utilisateur d'abonnement Max 20x (200 $/mois), dont la fenêtre de 5 heures a été entièrement consommée en 19 minutes. Les utilisateurs Max 5x (100 $/mois) ont signalé que leur fenêtre de 5 heures était épuisée en 90 minutes. Selon The Letter Two, certains utilisateurs ont affirmé qu'un simple "bonjour" consommait 13 % de leur quota de session. Un utilisateur Pro (20 $/mois) sur Discord a mentionné que son quota "s'épuisait chaque lundi et ne se réinitialisait que le samedi," avec seulement 12 jours d'utilisation normale en 30 jours.

D'après les tests de référence d'ArkNill, dans la version bug v2.1.89, le quota de 100 % du plan Max 20x serait épuisé en environ 70 minutes. Il a également calculé le coût d'une seule opération --resume pour une session de contexte de 500K tokens, qui est d'environ 0,15 $, car le système rejoue entièrement tout le contexte.

« Vous le tenez mal »

L'enquête de Lydia Hallie a confirmé deux points : d'abord, il y a effectivement eu un durcissement des limites de consommation aux heures de pointe, et ensuite, il y a eu une augmentation de la consommation de jetons dans le contexte d'un million de jetons. Elle a mentionné que l'équipe avait corrigé certains bugs mais a souligné que « aucun des bugs n'a conduit à une surfacturation ».

Elle a ensuite fourni quatre recommandations de frugalité :
1. Utilisez Sonnet 4.6 au lieu d'Opus (Opus consomme environ deux fois plus) ;

2. Réduisez la profondeur de raisonnement ou désactivez la pensée prolongée lorsque le raisonnement approfondi n'est pas nécessaire ;

3. Ne reprenez pas de longues sessions inactives de plus d'une heure ; commencez plutôt une nouvelle session ;

4. Définissez la variable d'environnement CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000 pour limiter la taille de la fenêtre de contexte.

Aucune mention n'a été faite d'une forme de réinitialisation de quota ou de compensation.

L'animateur de podcast AI, Alex Volkov, a résumé cette réponse par « Vous le tenez mal », soulignant qu'Anthropic lui-même avait défini le contexte d'un million de jetons comme par défaut, promu Opus comme modèle phare, et mis en avant la pensée prolongée comme un argument de vente, mais conseille maintenant aux utilisateurs payants de ne pas utiliser ces fonctionnalités.

L'affirmation de « pas de surfacturation » crée également des tensions avec l'historique des mises à jour de Claude Code. Juste la veille de la réponse de Lydia, la version 2.1.90 a corrigé un bug de régression de cache qui était présent depuis la version 2.1.69 : lors de l'utilisation de --resume pour reprendre une session, les requêtes qui auraient dû toucher le cache déclencheraient un échec complet du cache de prompt, entraînant une facturation complète. La réponse de Lydia n'a pas mentionné cette anomalie de facturation confirmée.

Pour comparaison, le Codex d'OpenAI avait précédemment rencontré des problèmes similaires de consommation anormale de quota. L'approche d'OpenAI était de réinitialiser les quotas des utilisateurs, d'émettre des remboursements de crédit et d'annoncer la suppression du plafond d'utilisation sur Codex en mars. L'approche d'Anthropic est de conseiller aux utilisateurs de rétrograder les modèles, de désactiver les fonctionnalités, de limiter le contexte et d'attribuer la responsabilité à l'utilisation par les utilisateurs.

Anthropic propose un abonnement pour le "modèle le plus puissant + le maximum de contexte + les capacités de raisonnement les plus élevées," facturant des frais de 20 à 200 dollars par mois. Un bug de mise en cache de 28 jours a entraîné une déplétion des quotas des utilisateurs payants à un rythme 10 à 20 fois plus rapide, la réponse officielle étant de l'utiliser avec parcimonie.

Vous pourriez aussi aimer

Rapport du matin | Coinbase Ventures réalise son premier investissement dans ENA ; SpaceX prévoit de fixer le prix de son introduction en bourse à 135 $ par action

Aperçu des événements importants du marché le 3 juin

Texte intégral et analyse du discours du PDG de SanDisk lors de la 42e conférence annuelle sur les décisions stratégiques de Bernstein

La valeur fondamentale du discours de Goeckeler réside dans la fourniture d'un cadre narratif très transparent et logiquement clair pour la transformation de l'entreprise.

Prévision du prix du Bitcoin pour 2030 : Ark Invest anticipe 710 000 $

Découvrez les prévisions de prix du bitcoin pour 2030 d'Ark Invest et de Standard Chartered, ainsi que les risques clés et comment positionner votre portefeuille. Analyse complète sur WEEX.

Prix du SOL aujourd'hui : cours en direct de Solana, graphiques et données de marché

Découvrez le prix du SOL aujourd'hui avec des données en temps réel, ainsi que les facteurs clés influençant le mouvement de Solana et des conseils de trading exploitables. Lisez l'analyse complète sur WEEX.

Rapport du matin | Strategy a vendu 32 BTC et plus de 800 000 actions MSTR la semaine dernière ; Binance a officiellement annoncé son portail de trading d'actions américaines ; Polymarket a conclu un partenariat exclusif avec OneFootball

Aperçu des événements importants du marché au 1er juin

Bootcamp de trading WEEXPERIENCE en Pologne : comment WEEX et FireCrew rendent le trading crypto accessible à tous

WEEX s'est associé à Firecrew en Pologne le 29 mai pour le bootcamp de trading WEEXPERIENCE. Découvrez le compte-rendu des sessions d'experts sur l'analyse technique, la psychologie du trading et les outils d'IA qui prouvent la mission de WEEX : rendre le trading crypto accessible à tous.

Le sacre de Paris : comment le PSG a brisé le rêve d'Arsenal lors d'une finale de Ligue des champions historique

PSG contre Arsenal, drame, destin et une malédiction de 20 ans enfin brisée. Revivez la finale de la Ligue des champions 2026 où le PSG a défendu son titre lors d'une séance de tirs au but sous haute tension, alors que le moment de gloire d'Ousmane Dembélé et un raté déchirant ont marqué l'histoire à Budapest.

TaiJi finalise un financement stratégique de 3,5 millions de dollars, avec la participation de Castrum Capital, Becker Ventures et Coinvestor Ventures

La plateforme d'intelligence de marché on-chain Web3 pilotée par l'IA, TaiJi, a annoncé la clôture d'un financement stratégique de 3,5 millions de dollars, qui accélérera la construction d'un nouveau moteur de simulation de marché par IA.

Bitcoin stagne près de 73 000 $ ? Comment les traders trouvent des opportunités dans un marché latéral en juin

Le Bitcoin stagne près de 73 000 $ alors que les flux des ETF ralentissent et que l'incertitude macroéconomique rend les traders prudents. Découvrez comment des campagnes de récompenses comme la WEEX Joker Party aident les traders à rester actifs durant ce marché latéral de juin.

Comment staker Solana : un guide étape par étape pour 2026

Découvrez les meilleures cryptomonnaies IA de 2026 grâce à des sélections basées sur les données : Bittensor, Render et des projets émergents. Métriques on-chain, risques et guide de trading WEEX inclus.

Le prix garanti est désormais disponible sur WEEX : exécutez vos ordres avec une plus grande précision

Pour offrir une expérience de trading de contrats à terme plus fluide, WEEX futures a lancé une fonctionnalité de « Prix garanti ».

Dernières recherches de la BRI : L'avenir des stablecoins et le paysage monétaire mondial

Le rapport estime que les stablecoins renforceront la domination du dollar américain à court terme, faisant peser des risques sur la souveraineté monétaire des marchés émergents et des économies en développement, tandis que leur trajectoire à long terme dépendra de leurs modèles d'adoption, des réponses réglementaires et de la synergie de...

Entretien avec l'expert macro Raoul Pal : La course à l'IA mène à une « singularité économique », ne lâchez pas vos jetons trop facilement au cours des quatre prochaines années

Par rapport au Nasdaq, le Bitcoin se trouve actuellement dans une position de survente sévère au sein de sa tendance à long terme.

Pourquoi Peter Thiel, l'homme derrière Palantir, prépare-t-il une sortie en Argentine ?

Palantir, risque politique et autopréservation des oligarques technologiques.

La crise de la quarantaine des GP Crypto : sans PMF, pas de nouveau chèque des LP

Après avoir perdu la grandeur des étoiles et de la mer, la plupart des GP Crypto qui n'ont pas réussi à générer des rendements excédentaires lors de ce cycle doivent lancer de manière pragmatique un produit avec un PMF, soit en prouvant leur capacité à aider les LP à obtenir des rendements excédentaires sur un marché de niche, soit en résolvant des problèmes spécifiques pour les LP/partenaires...

Rapport du matin | Coinbase Ventures réalise son premier investissement dans ENA ; SpaceX prévoit de fixer le prix de son introduction en bourse à 135 $ par action

Aperçu des événements importants du marché le 3 juin

Texte intégral et analyse du discours du PDG de SanDisk lors de la 42e conférence annuelle sur les décisions stratégiques de Bernstein

La valeur fondamentale du discours de Goeckeler réside dans la fourniture d'un cadre narratif très transparent et logiquement clair pour la transformation de l'entreprise.