Nya innovationer från NVIDIA och Dell revolutionerar AI-prestanda
Publicerad januari 20, 2026
Publicerad januari 20, 2026

NVIDIA och Dell har nyligen introducerat en banbrytande metod för att förbättra hastigheten på svar från stora språkmodeller. Detta görs genom att flytta KV-cachen, som lagrar information om aktuella konversationer och dokument, från GPU:ns begränsade minneskapacitet till mer tillgängliga lagringslösningar.
Under modellens arbete skapas nycklar och värden som är avgörande för AI:s förståelse av sammanhang. När dessa data får plats i GPU:ns snabba minne genereras svar effektivt. Men när kontexten expanderar, växer också cachen, vilket leder till långsammare svar och ökad energiförbrukning. Genom att avlasta KV-cachen till större minnes- och lagringssystem kan GPU:erna fokusera på beräkningar, vilket möjliggör snabbare svar och ett bättre resursutnyttjande.
NVIDIA:s BlueField-4 och den nya plattformen Context Memory Storage (CMS), i samarbete med Dells lagringslösningar PowerScale, ObjectScale och Project Lightning, förbättrar effektiviteten i inferensen och underlättar skalning.
BlueField-4 för CMS skapar ett dedikerat minneslager som sammankopplar det snabba, men begränsade, GPU-minnet med traditionell lagring. Detta leder till förbättrad användning av GPU:er vid längre resonemang, lägre latens i realtidsdialoger och högre prestanda per watt.
Från början kan tydliga prestandaförbättringar observeras. Dells avlastning av KV-cache kan resultera i upp till 19 gånger snabbare första svar (TTFT, Time to First Token) och upp till 5,3 gånger fler förfrågningar per sekund. För organisationer som inte ännu har implementerat BlueField-4, eller som behöver mer lagringsutrymme, erbjuds en mjukvarustack som förenar LMCache och NVIDIA NIXL med Dells lagringslösningar. Detta möjliggör att KV-cachen flyttas till fil- eller objektlagring via RDMA, vilket bibehåller ett konstant dataflöde.
För organisationer innebär detta en konkret ekonomisk fördel. Kostnaderna kan reduceras genom att det inte längre är nödvändigt att investera i fler kostsamma GPU:er för att hantera minnet. Dessutom förbättrar den ökade kapaciteten att hantera kontext att modeller bättre kan minnas samtal, sammanfatta större dokument och ge mer relevanta och personliga svar över tid.
Genom att utveckla ett öppet ekosystem skapar NVIDIA och Dell en omfattande AI-fabrik som stödjer organisationer i att snabbare nå resultat från sina idéer, oavsett om fokus ligger på ultralåg latens med BlueField-4 eller på stor skala med PowerScale och ObjectScale.