Ramp Labs stellt eine Lösung für das Teilen von Multi-Agenten-Speicher vor, Token-Verbrauch um bis zu 65 % reduziert

By: theblockbeats.news|2026/04/11 06:19:36
0
Teilen
copy

BlockBeats Nachrichten, 11. April, das KI-Infrastrukturunternehmen Ramp Labs veröffentlichte Forschungsergebnisse zu "Latent Briefing", die effizientes Speichern von Multi-Agenten-Systemen durch direkte Kompression des KV-Caches großer Modelle erreichen, wodurch der Token-Verbrauch erheblich reduziert wird, ohne die Genauigkeit zu opfern.


In gängigen Multi-Agenten-Architekturen zerlegt der Orchestrator Aufgaben und ruft wiederholt Worker-Modelle auf. Mit der Verlängerung der Inferenzkette steigt der Token-Verbrauch exponentiell an. Die Kernidee von Latent Briefing besteht darin, den Aufmerksamkeitsmechanismus zu nutzen, um die wirklich kritischen Teile im Kontext zu identifizieren, redundante Informationen auf der Repräsentationsebene direkt zu verwerfen, anstatt sich auf die langsame LLM-Zusammenfassung oder die instabile RAG-Abfrage zu verlassen.


Im LongBench v2 Benchmark-Test schnitt diese Methode bemerkenswert ab: Der Token-Verbrauch des Worker-Modells sank um 65 %, die medianen Token-Einsparungen für Dokumente mittlerer Länge (32k bis 100k) erreichten 49 %, die Gesamtgenauigkeit verbesserte sich um etwa 3 Prozentpunkte im Vergleich zur Basislinie, und die zusätzliche Zeit für jede Kompression betrug nur etwa 1,7 Sekunden, was eine Beschleunigung von etwa 20 Mal im Vergleich zum ursprünglichen Algorithmus erreichte.


Das Experiment verwendete Claude Sonnet 4 als Orchestrator und Qwen3-14B als Worker-Modell und deckte verschiedene Dokumentenszenarien wie akademische Arbeiten, juristische Dokumente, Romane und Regierungsberichte ab. Die Forschung ergab auch, dass die optimale Kompressionsschwelle je nach Schwierigkeitsgrad der Aufgabe und Dokumentenlänge variiert – schwierige Aufgaben eignen sich für aggressive Kompression, um spekulative Denkgeräusche herauszufiltern, während lange Dokumente besser für milde Kompression geeignet sind, um verstreute Schlüsselinformationen zu erhalten.

Das könnte Ihnen auch gefallen

Morgenbericht | Coinbase Ventures tätigt erste Investition in ENA; SpaceX plant IPO-Preis von 135 $ pro Aktie

Überblick über wichtige Marktereignisse am 3. Juni

Bitcoin-Preisprognose 2030: Ark Invest prognostiziert 710.000 $

Entdecken Sie die Bitcoin-Preisprognosen für 2030 von Ark Invest und Standard Chartered sowie die wichtigsten Risiken und wie Sie Ihr Portfolio positionieren können. Vollständige Analyse auf WEEX.

SOL-Preis heute: Live-Solana-Kurs, Charts & Marktdaten

Finden Sie den aktuellen SOL-Preis mit Echtzeitdaten sowie die wichtigsten Faktoren für die Kursentwicklung von Solana und praktische Trading-Tipps. Lesen Sie die vollständige Analyse auf WEEX.

Was ist ein Bitcoin-ETF: Spot vs. Futures erklärt

Erfahren Sie, was ein Bitcoin-ETF ist, wie Spot- und Futures-ETFs funktionieren und warum institutionelle Zuflüsse BTC im Jahr 2026 neu gestalten. Eine Analyse von WEEX.

Warum fällt Bitcoin um 15 %, während der Nasdaq Rekordhochs erreicht?

Bitcoin stürzt inmitten von Ängsten vor geopolitischen Spannungen um 15 % auf 66.000 $, während der Nasdaq auf Allzeithochs steigt. Analyse der makroökonomischen Treiber, ETF-Zuflüsse, des Verhaltens von Privatanlegern gegenüber Walen und der verborgenen Korrelation zwischen Krypto und Aktien.

WSJ: Hyperliquid wird zum Krypto-„Gemischtwarenladen“ der Wall Street

Hyperliquid hat sich zu einem Handelsplatz entwickelt, der rund um die Uhr geöffnet ist und immer mehr traditionelle sowie Krypto-Händler anzieht, die dort auf nahezu alle Anlageklassen wetten.

Beliebte Coins

Neueste Krypto-Nachrichten

Mehr lesen
iconiconiconiconiconiconicon
Kundenservice:@weikecs
Geschäftliche Zusammenarbeit:@weikecs
Quant-Trading & MM:bd@weex.com
VIP-Programm:support@weex.com