El Viaje de Claude hacia la Insensatez en Diagramas: El Costo de la Austeridad, o Cómo la Factura de la API Aumentó 100 Veces

By: blockbeats|2026/04/13 18:00:07
0
Compartir
copy

Hace unos días, Stella Laurenzo, Jefa de IA en AMD, publicó un problema titulado "Código de Claude Inutilizable para Tareas de Ingeniería Complejas" en el repositorio oficial de Claude Code. No se trataba de una queja emocional de un usuario, sino de un análisis cuantitativo basado en 6,800 sesiones. Puso de relieve el problema que la comunidad de IA más se resiste a enfrentar, con un conjunto de números que destacaba particularmente: un ajuste de configuración para ahorrar costos por parte de Anthropic disparó la factura mensual de la API de este equipo de $345 a $42,121.

El equipo de Laurenzo rastreó 235,000 invocaciones de herramientas, 18,000 indicaciones y documentó la degradación del rendimiento sistémico del Código de Claude desde febrero de 2026. Este informe fue posteriormente cubierto por The Register, desatando una tormenta de opinión pública de dos semanas en la comunidad de desarrolladores.

Boris Cherny, Jefe del equipo de Claude Code de Anthropic, proporcionó una explicación en Hacker News. El 9 de febrero, con el lanzamiento de Opus 4.6, se habilitó por defecto un mecanismo de "autopensamiento", donde el modelo decide de forma autónoma la duración del pensamiento. El 3 de marzo, Anthropic redujo el esfuerzo de pensamiento por defecto a 85. La explicación oficial fue "el punto de equilibrio óptimo entre inteligencia, latencia y costo." El impacto real de estos dos ajustes es evidente en los datos.

La Profundidad del Pensamiento Se Desploma en Tres Cuartas Partes

Según los datos del Problema de GitHub de Stella Laurenzo, la profundidad media del pensamiento de Claude Code experimentó un colapso en tres etapas durante dos meses: de un máximo de 2,200 caracteres a finales de enero a 720 caracteres a finales de febrero, una caída del 67%. Para marzo, se redujo aún más a 560 caracteres, una disminución del 75% desde el pico.

El Viaje de Claude hacia la Insensatez en Diagramas: El Costo de la Austeridad, o Cómo la Factura de la API Aumentó 100 Veces

La profundidad del pensamiento aquí es una métrica proxy que refleja cuánto "deliberación interna" está dispuesto a involucrarse el modelo antes de proporcionar una respuesta. La diferencia entre 2,200 y 560 caracteres es aproximadamente equivalente a degradar de "redactar antes de responder" a "pensar durante dos segundos en tu cabeza antes de hablar."

Laurenzo también señaló que la función de "Redacción de Contenido del Pensamiento" (redact-thinking-2026-02-12) lanzada a principios de marzo, coincidió casualmente con el enmascaramiento del proceso de pensamiento del modelo durante este período, haciendo que la reducción fuera menos perceptible para los usuarios. Boris Cherny insiste en que esto fue meramente un cambio de interfaz y did-133">no afectó el razonamiento subyacente. Ambas afirmaciones son técnicamente válidas, pero desde la perspectiva del usuario, el efecto es indistinguible.

Boris Cherny más tarde reconoció que incluso al establecer manualmente el esfuerzo de nuevo al máximo, el mecanismo de auto-reflexión puede seguir asignando un razonamiento insuficiente en algunas rondas, lo que lleva a contenido alucinado. "Restaurar el esfuerzo máximo" no es una solución completa; simplemente acerca la perilla a su posición original en lugar de restaurarla a su determinismo original.

De "Programador Orientado a la Investigación" a "Programador de Edición Ciega"

Un detalle en el informe de Stella Laurenzo es más explícito que la profundidad de pensamiento: cuántos archivos relevantes el modelo lee activamente antes de realizar cambios en el código.

Según los datos de GitHub Issue, durante el período principal, la relación promedio de lectura a edición es de 6.6. Antes de realizar un cambio en el código, el modelo, en promedio, lee 6.6 archivos para entender el contexto. Durante el período de decadencia, este número cae a 2.0, una disminución del 70%. Más críticamente, aproximadamente un tercio de las ediciones de código ocurren sin que el modelo lea el archivo objetivo, lanzándose directamente.

Laurenzo se refiere a esto como "ediciones ciegas." En términos de ingeniería, esto es similar a un programador escribiendo código sin mirar las firmas de función o conocer los tipos de variables. "Cada ingeniero senior en mi equipo ha tenido experiencias similares de primera mano," escribió en su informe. "Claude ya no puede ser confiado para llevar a cabo tareas de ingeniería complejas."

La caída de una relación de lectura a edición de 6.6 a 2.0 no es meramente un cambio en la métrica de comportamiento; significa un colapso en las tasas de éxito de tareas de. La complejidad de los repositorios de código modernos dicta que cualquier modificación involucra dependencias a través de múltiples archivos. Saltar la exploración del contexto y hacer cambios directamente no conduce meramente a "respuestas incorrectas" sino más bien a "cambios aparentemente correctos que desencadenan nuevos errores más adelante." El costo de depurar tales errores supera con creces el de una única respuesta explícita fallida.

La Paradoja de "Ahorrar Dinero"

Uno de los conjuntos de números más contraintuitivos en todo el incidente proviene de los mismos datos de GitHub Issue: El equipo de Stella Laurenzo vio cómo los costos mensuales de invocación de la API de Claude Code se desplomaron de 345 dólares en febrero de 2026 a la asombrosa cifra de 42,121 dólares en marzo, un aumento de 122 veces.

La lógica detrás de la reducción de esfuerzo de Anthropics era disminuir el consumo de tokens por llamada, reduciendo así los costos. Sin embargo, el resultado fue el opuesto. La razón detrás de esto fue la aparición de numerosos "bucles de razonamiento" tras la degradación del modelo, lo que llevó a una auto-negación repetida dentro de una única respuesta, reinicios constantes y un consumo de tokens que superaba con creces la cantidad ahorrada. Según los datos de Stella Laurenzo, la tasa de usuarios que abortaban tareas voluntariamente aumentó 12 veces durante el mismo período, requiriendo la intervención continua de los desarrolladores, correcciones y reenvíos.

La lógica subyacente es un error sistémico. Reducir la potencia computacional en una tarea compleja no simplemente reduce proporcionalmente los costos. Una vez que se está por debajo de un cierto umbral de pensamiento, el modelo comienza a desviarse, y el costo total acaba escalando. Reducir el esfuerzo ahorró dinero en consultas simples, pero en tareas de codificación, disparó la factura.

Precio de --

--

La cuestión de "Dumbing Down", GPT-4 lo hizo hace tres años.

En julio de 2023, un equipo de investigación de la Universidad de Stanford y la Universidad de California, Berkeley, publicó un artículo en arXiv titulado "¿Cómo está cambiando el comportamiento de ChatGPT con el tiempo?", documentando el mismo fenómeno que ocurre en GPT-4.

Según los datos de la investigación, en marzo de 2023, GPT-4 había generado código donde más del 50% era directamente ejecutable. Para junio, esta proporción había caído al 10%, una disminución del 80% en tres meses. Durante el mismo período, la precisión en la identificación de números primos se desplomó del 97.6% al 2.4%. La respuesta de OpenAI fue muy similar a la de Anthropic: había habido optimizaciones en segundo plano, parte de la iteración normal.

La estructura de las dos historias es casi idéntica: una empresa de IA ajustó silenciosamente parámetros que afectan las capacidades del modelo en segundo plano, los usuarios lo notaron, la empresa reconoció el ajuste, pero lo explicó como "una asignación de recursos más razonable." La degradación de GPT-4 ocurrió en 2023, la degradación de Claude sucedió en 2026, tres años de diferencia, pero el guion es el mismo.

Esto no es un error peculiar de una empresa específica. La lógica económica de los modelos de suscripción de IA determina que cuando los costos de razonamiento superan el precio que se puede cubrir, los fabricantes enfrentan la misma presión. Reducir la intensidad de pensamiento por defecto es actualmente la perilla más fácil de ajustar entre costo y rendimiento. Lo que los usuarios perciben es que el modelo se está volviendo "más tonto." Lo que el fabricante ahorra en los libros es el coste marginal por llamada.

Boris Cherny ha proporcionado una solución técnica donde los usuarios pueden restaurar manualmente la intensidad del pensamiento al nivel más alto a través del comando /esfuerzo alto o modificando el archivo de configuración. Esta solución es técnicamente viable, pero también significa que "máximo rendimiento" ya no es la configuración predeterminada.

De 345 a 42,121 dólares, lo que se gastó no fue solo el presupuesto, sino también una suposición: los cambios en la configuración predeterminada realizados por el fabricante estaban destinados a mejorar la experiencia del usuario.

Te puede gustar

Monedas populares

Últimas noticias cripto

Leer más