Duże modele językowe (LLM) szybko stają się niezbędnymi narzędziami dla korporacyjnej sztucznej inteligencji, ale ich ogromne wymagania dotyczące pamięci stanowią poważną przeszkodę. Głównym problemem jest * * pamięć podręczna KV**: pamięć robocza, która przechowuje każdy poprzedni Token, aby uniknąć powtarzających się obliczeń. Wraz ze wzrostem długości kontekstu — na przykład podczas analizowania długich dokumentów prawnych lub prowadzenia wielu dialogów z klientami — ta pamięć podręczna rozrasta się, przeciążając sprzęt i ograniczając wydajność.
Naukowcy z Massachusetts Institute of Technology (MIT) opracowali Attention Matching, nową technikę, która kompresuje pamięć LLM do 50 razy bez zmniejszania dokładności. Ten przełom omija ograniczenia istniejących metod, oferując realne rozwiązanie dla rzeczywistych aplikacji korporacyjnych, w których wymagana jest ekstremalna kompresja.
Wyjaśnienie wąskiego gardła pamięci podręcznej KV
LLM generują tekst po jednym słowie (tokenach) na raz. Aby odpowiadać spójnie, muszą pamiętać poprzednie interakcje. Zamiast przeliczać wszystko dla każdego nowego tokena, modele przechowują pary klucz-wartość reprezentujące dane z przeszłości w pamięci podręcznej KV. Zapobiega to nadmiernemu przetwarzaniu, ale pamięć podręczna skaluje się liniowo wraz z długością rozmowy, zużywając coraz droższy sprzęt.
Jak wyjaśnia Adam Zweiger, jeden z autorów badania, “pamięć podręczna KV jest największą przeszkodą w obsłudze modeli o bardzo długim kontekście”. Rosnący rozmiar ogranicza współbieżność, wymusza mniejsze rozmiary wsadowe, a nawet może wymagać zrzucenia danych do wolniejszej pamięci. W przypadku zadań takich jak analizowanie ogromnych kontraktów lub uruchamianie złożonych agentów kodujących pamięć podręczna KV może z łatwością osiągnąć gigabajt na żądanie użytkownika.
Istniejące metody kompresji okazują się niewystarczające
W branży sztucznej inteligencji badano różne strategie radzenia sobie z tym problemem, ale większość z nich ma poważne wady. Po prostu usunięcie lub połączenie tokenów zmniejsza wydajność przy wyższych współczynnikach kompresji. Sumowanie, powszechne obejście, powoduje znaczną utratę informacji, pogarszając dokładność kolejnych operacji. Nawet najlepsze praktyki, takie jak Cartridges, które wykorzystują optymalizację opartą na gradientach, są zbyt wolne dla rzeczywistych środowisk korporacyjnych.
Cartridges mogą osiągnąć wysoką kompresję, ale wymagają godzin przetwarzania na GPU dla jednego kontekstu, co czyni je niepraktycznymi do natychmiastowego użycia. Potrzeba szybszego i bardziej efektywnego rozwiązania jest oczywista.
Jak działa Attention Matching: przełom matematyczny
Attention Matching unika długiego procesu uczenia się, wykorzystując kluczowe matematyczne właściwości mechanizmów uwagi LLM. Naukowcy odkryli, że zachowanie dwóch ważnych elementów- * * wyjścia uwagi * * (rzeczywiste informacje pobrane z pamięci) i masy uwagi (względna waga każdego tokena) — wystarczy, aby naśladować oryginalną, nieskompresowaną pamięć.
Wiernie odtwarzając te właściwości, skompresowana pamięć zachowuje się identycznie jak pełna wersja, nawet przy nieprzewidywalnych żądaniach użytkownika. Metoda generuje “zapytania referencyjne” (symulowane wyszukiwania wewnętrzne), aby zapewnić, że skompresowana pamięć może odpowiadać na pytania tak dokładnie, jak poprzednio.
Podejście to opiera się na wydajnych metodach algebraicznych, unikając optymalizacji opartej na gradientach wymagających dużej ilości zasobów stosowanej w innych metodach. System przechowuje klucze o wysokiej wartości i oblicza odpowiednie wartości przy użyciu standardowych algorytmów, osiągając znaczne przyspieszenie.
Prawdziwe wyniki: kompresja 50 razy bez utraty dokładności
Testy z modelami takimi jak Llama 3.1 i Qwen-3 na zestawach danych, takich jak QuALITY (czytanie ze zrozumieniem) i LongHealth (obszerna dokumentacja medyczna), potwierdziły skuteczność metody. Attention Matching skompresował pamięć podręczną KV 50 razy bez zmniejszania dokładności, co wcześniej wymagało godzin obliczeń na GPU.
Natomiast standardowe sumowanie całkowicie zawiodło na złożonej dokumentacji medycznej, nie działając lepiej niż model bez kontekstu. Podczas gdy ekstremalna kompresja (100x) faworyzuje wolniejsze metody, takie jak Cartridges, podczas pracy z danymi o wysokiej gęstości, dopasowanie uwagi pozostaje lepsze przy 50x w większości scenariuszy korporacyjnych.
Konsekwencje i perspektywy
Naukowcy opublikowali kod do Attention Matching, ale implementacja wymaga dostępu do wag modelu, co ogranicza jego użycie do tych, którzy polegają wyłącznie na zamkniętych interfejsach API. Integracja tej techniki z istniejącą infrastrukturą AI będzie wymagała wysiłku inżynieryjnego, biorąc pod uwagę złożoność obecnych systemów, takich jak buforowanie prefiksów.
Jednak potencjalne zastosowania są oczywiste, takie jak kompresja dużych danych wyjściowych narzędzi lub długich dokumentów po przetworzeniu. Trend w kierunku mechanicznej, utajonej kompresji przestrzennej sugeruje, że dostawcy modeli będą coraz częściej oferować tę funkcjonalność bezpośrednio, zamiast pozostawiać ją na łasce użytkownikom końcowym. OpenAI zapewnia już zamknięty punkt końcowy kompresji, co sygnalizuje zmianę w branży.
Ostatecznie Attention Matching stanowi znaczący krok w kierunku uczynienia LLM bardziej praktycznymi i dostępnymi dla aplikacji korporacyjnych. Zmniejszając wymagania dotyczące pamięci bez uszczerbku dla dokładności, technika ta otwiera nowe możliwości przetwarzania ogromnych zbiorów danych i złożonych zadań.





















