Ramp Labs presenta una solución multiagente para compartir la memoria: el consumo de tokens se redujo hasta en un 65%

By: theblockbeats.news|2026/04/11 14:19:36
0
Compartir
copy

bloque News, 11 de APR, la Empresa de infraestructura de IA Ramp Labs publicó los resultados de la investigación sobre el “Latent Briefing”, logrando un intercambio eficiente de memoria entre sistemas multiagente a través de la compresión directa del caché de KV del modelo a gran escala, reduciendo significativamente el consumo de token sin sacrificar la precisión.


En las arquitecturas multiagente convencionales, el Orchestrator descompone tareas y llama repetidamente a modelos Worker. A medida que se extiende la cadena de inferencia, el uso de token se infla exponencialmente. La idea central de la información latente es el apalancamiento del mecanismo de atención para identificar las partes verdaderamente críticas en el contexto, desechar directamente la información redundante en la capa de representación, en lugar de confiar en el resumen de LLM a baja velocidad o la recuperación inestable de RAG.


En la prueba de referencia en long v2, este método tuvo un rendimiento notable: El consumo de token disminuyó en un 65%, la mediana de Ahorros de token para documentos de longitud media (32.000 a 100.000) alcanzó el 49%, la precisión general mejoró aproximadamente 3 puntos porcentuales en comparación con la línea base, y el tiempo adicional para cada compresión fue de solo aproximadamente 1,7 segundos, alcanzando una velocidad de aproximadamente 20 veces en comparación con el algoritmo original.


El experimento utilizó a Claude Sonnet 4 como orquestador, y a Qwen3-14B como modelo trabajador, cubriendo varios escenarios documentales como documentos académicos, documentos legales, novelas e informes gubernamentales. La investigación también encontró que el umbral de compresión óptimo varía según la dificultad de la tarea y la longitud del documento: tareas difíciles son adecuadas para compresión agresiva para filtrar el ruido de razonamiento especulativo, mientras que los documentos en long son más adecuados para compresión leve para retener información clave dispersa.

También te puede interesar

Reporte matutino | Coinbase Ventures realiza su primera inversión en ENA; SpaceX planea fijar el precio de su OPI en $135 por acción

Resumen de eventos importantes del mercado el 3 de junio

Texto completo y análisis del discurso del CEO de SanDisk en la 42.ª Conferencia Anual de Decisiones Estratégicas de Bernstein

El valor fundamental del discurso de Goeckeler reside en que proporciona un marco narrativo altamente transparente y lógicamente claro para la transformación corporativa.

Predicción del precio de Bitcoin para 2030: Ark Invest pronostica $710,000

Explore los pronósticos de Ark Invest y Standard Chartered sobre el precio de bitcoin para 2030, además de los riesgos clave y cómo posicionar su cartera. Análisis completo en WEEX.

Precio de SOL hoy: Precio, gráficos y datos de mercado de Solana en tiempo real

Descubre el precio de SOL hoy con datos en tiempo real, además de los factores clave detrás del movimiento de Solana y consejos prácticos de trading. Lee el análisis completo en WEEX.

Qué es un ETF de Bitcoin: Explicación de spot vs. futuros

Aprende qué es un ETF de Bitcoin, cómo funcionan los ETF spot frente a los de futuros y por qué las entradas institucionales están transformando BTC en 2026. Análisis de WEEX.

¿Por qué Bitcoin cae un 15% mientras el Nasdaq alcanza máximos históricos?

Bitcoin se desploma un 15% hasta los $66,000 ante el temor por las tensiones geopolíticas, mientras el Nasdaq se dispara a máximos históricos. Análisis de los factores macroeconómicos, flujos de ETF, comportamiento de minoristas frente a ballenas y la correlación oculta entre cripto y acciones.

Monedas populares

Últimas noticias sobre criptomonedas

Leer más
iconiconiconiconiconicon
Atención al cliente:@weikecs
Cooperación empresarial:@weikecs
Trading cuantitativo y MM:bd@weex.com
Programa VIP:support@weex.com