Ramp Labs presenta una solución multiagente para compartir la memoria: el consumo de tokens se redujo hasta en un 65%
bloque News, 11 de APR, la Empresa de infraestructura de IA Ramp Labs publicó los resultados de la investigación sobre el “Latent Briefing”, logrando un intercambio eficiente de memoria entre sistemas multiagente a través de la compresión directa del caché de KV del modelo a gran escala, reduciendo significativamente el consumo de token sin sacrificar la precisión.
En las arquitecturas multiagente convencionales, el Orchestrator descompone tareas y llama repetidamente a modelos Worker. A medida que se extiende la cadena de inferencia, el uso de token se infla exponencialmente. La idea central de la información latente es el apalancamiento del mecanismo de atención para identificar las partes verdaderamente críticas en el contexto, desechar directamente la información redundante en la capa de representación, en lugar de confiar en el resumen de LLM a baja velocidad o la recuperación inestable de RAG.
En la prueba de referencia en long v2, este método tuvo un rendimiento notable: El consumo de token disminuyó en un 65%, la mediana de Ahorros de token para documentos de longitud media (32.000 a 100.000) alcanzó el 49%, la precisión general mejoró aproximadamente 3 puntos porcentuales en comparación con la línea base, y el tiempo adicional para cada compresión fue de solo aproximadamente 1,7 segundos, alcanzando una velocidad de aproximadamente 20 veces en comparación con el algoritmo original.
El experimento utilizó a Claude Sonnet 4 como orquestador, y a Qwen3-14B como modelo trabajador, cubriendo varios escenarios documentales como documentos académicos, documentos legales, novelas e informes gubernamentales. La investigación también encontró que el umbral de compresión óptimo varía según la dificultad de la tarea y la longitud del documento: tareas difíciles son adecuadas para compresión agresiva para filtrar el ruido de razonamiento especulativo, mientras que los documentos en long son más adecuados para compresión leve para retener información clave dispersa.
También te puede interesar

Reporte matutino | Coinbase Ventures realiza su primera inversión en ENA; SpaceX planea fijar el precio de su OPI en $135 por acción

Texto completo y análisis del discurso del CEO de SanDisk en la 42.ª Conferencia Anual de Decisiones Estratégicas de Bernstein

Predicción del precio de Bitcoin para 2030: Ark Invest pronostica $710,000

Precio de SOL hoy: Precio, gráficos y datos de mercado de Solana en tiempo real

Qué es un ETF de Bitcoin: Explicación de spot vs. futuros

¿Por qué Bitcoin cae un 15% mientras el Nasdaq alcanza máximos históricos?
¿Qué es TradFi y por qué todo el mundo habla de ello en 2026?

Reporte matutino | Strategy vendió 32 BTC y más de 800,000 acciones de MSTR la semana pasada; Binance anunció oficialmente su portal de trading de acciones de EE. UU.; Polymarket alcanzó una asociación exclusiva con OneFootball

Bootcamp de trading WEEXPERIENCE en Polonia: Cómo WEEX y FireCrew están haciendo que el trading de criptomonedas sea accesible para todos

París reina supremo: Cómo el PSG aplastó el sueño del Arsenal en una final histórica de la UCL

TaiJi completa una ronda de financiamiento estratégico de $3.5 millones, con inversiones de Castrum Capital, Becker Ventures y Coinvestor Ventures

¿Bitcoin estancado cerca de los $73K? Cómo los traders encuentran recompensas en un mercado lateral de junio

Cómo hacer staking de Solana: una guía paso a paso para 2026

Precio garantizado ya disponible en WEEX: opere con mayor precisión

La investigación más reciente del BIS: El futuro de las stablecoins y el panorama monetario global

Entrevista con el experto en macroeconomía Raoul Pal: La competencia en IA está dando lugar a una "singularidad económica", no te deshagas fácilmente de tus activos en los próximos cuatro años

La defensa fallida de los guardianes de Solana: para destrozar a Hyperliquid, ¿realmente retomaron el guion que alguna vez criticó a Ethereum?

