Nová technologie AI snižuje potřeby LLM v paměti 50krát bez ztráty kvality

0
13

Velké jazykové modely (LLM) se rychle stávají nepostradatelnými nástroji pro firemní AI, ale jejich obrovské nároky na paměť představují vážnou překážku. Hlavním problémem je * * KV-mezipaměť**: pracovní paměť, která ukládá každý minulý token, aby se zabránilo opakovaným výpočtům. Jak se délka kontextu zvyšuje — například při analýze dlouhých právních dokumentů nebo při vedení vícechodových dialogů se zákazníky-Tato mezipaměť se rozrůstá, přetěžuje hardware a omezuje výkon.

Výzkumníci z Massachusetts Institute of Technology (MIT) vyvinuli Attention Matching, novou techniku, která stlačuje paměť LLM až 50krát bez snížení přesnosti. Tento průlom obchází omezení stávajících metod a nabízí životaschopné řešení pro skutečné podnikové aplikace, kde je vyžadována extrémní komprese.

Vysvětlení úzkého místa KV mezipaměti

LLM generují text po jednom slovu (tokeny) najednou. Aby mohli reagovat koherentně, musí si pamatovat předchozí interakce. Namísto přepočítávání všeho pro každý nový token ukládají modely Páry klíč-hodnota představující minulá data do mezipaměti KV. To zabraňuje nadměrnému zpracování, ale mezipaměť se lineárně škáluje s délkou hovoru a spotřebovává stále dražší vybavení.

Jak vysvětluje Adam Zweiger, jeden z autorů studie, “paměť KV mezipaměti je největší překážkou pro údržbu modelů s ultradlinovým kontextem”. Rostoucí velikost omezuje paralelismus, nutí používat menší dávkové velikosti a může dokonce vyžadovat stahování dat do pomalejší paměti. Pro úkoly, jako je analýza obrovských kontraktů nebo spuštění složitých kódovacích agentů, může KV mezipaměť snadno dosáhnout gigabajtů na jeden požadavek uživatele.

Stávající kompresní metody jsou nedostatečné

AI průmysl zkoumal různé strategie řešení tohoto problému, ale většina z nich má vážné nedostatky. Pouhé odstranění nebo sloučení tokenů snižuje výkon při vyšších kompresních faktorech. Součet, běžné řešení, vede ke značné ztrátě informací, což zhoršuje přesnost následných operací. Dokonce i pokročilé metody, jako je Cartridges využívající optimalizaci založenou na gradientech, jsou příliš pomalé pro skutečné firemní prostředí.

Cartridges mohou dosáhnout vysoké komprese, ale vyžadují hodiny zpracování na GPU pro jeden kontext, takže jsou nepraktické pro okamžité použití. Potřeba rychlejšího a efektivnějšího řešení je zřejmá.

Jak funguje Attention Matching: matematický průlom

Attention Matching se vyhýbá dlouhodobému procesu učení pomocí klíčových matematických vlastností mechanismů pozornosti LLM. Výzkumníci zjistili, že uložení dvou důležitých prvků — výstup pozornosti (skutečné informace extrahované z paměti) a hmotnost pozornosti (relativní hmotnost každého tokenu) — je dostatečné k napodobení původní, nekomprimované paměti.

Při přesném přehrávání těchto vlastností se komprimovaná paměť chová identicky s plnou verzí, a to i při nepředvídatelných požadavcích uživatele. Metoda generuje “referenční dotazy” (simulované interní vyhledávání), aby zajistila, že komprimovaná paměť může odpovídat na otázky stejně přesně jako dříve.

Tento přístup čerpá z účinných algebraických metod a vyhýbá se optimalizaci náročné na zdroje založené na gradientech používané v jiných metodách. Systém si zachovává vysoce smysluplné klíče a vypočítává příslušné hodnoty pomocí standardních algoritmů, čímž dosahuje výrazného zrychlení.

Skutečné výsledky: 50x komprese bez ztráty přesnosti

Testování s modely jako Llama 3.1 a Qwen-3 na datových sadách, jako je QuALITY (porozumění přečtenému) a LongHealth (rozsáhlé lékařské záznamy), potvrdilo účinnost metody. Attention Matching stiskl KV mezipaměť 50krát bez snížení přesnosti, což dříve vyžadovalo hodiny výpočtů na GPU.

Naproti tomu standardní součet zcela selhal na složitých lékařských záznamech, nefungoval lépe než model bez kontextu. Zatímco extrémní komprese (100x) upřednostňuje pomalejší metody, jako jsou Cartridges, při práci s daty s vysokou hustotou, Attention Matching zůstává u většiny firemních scénářů lepší při 50x.

Důsledky a perspektivy

Výzkumníci zveřejnili kód pro attention Matching, ale implementace vyžaduje přístup k hmotnosti modelu, což omezuje jeho použití pro ty, kteří se spoléhají výhradně na uzavřená rozhraní API. Integrace této techniky do stávající ai infrastruktury bude vyžadovat inženýrské úsilí vzhledem ke složitosti současných systémů, jako je ukládání předpon do mezipaměti.

Potenciální aplikace jsou však zřejmé, jako je komprese velkých výstupních dat nástrojů nebo dlouhých dokumentů po zpracování. Trend mechanické, latentní a prostorové komprese naznačuje, že dodavatelé modelů budou tuto funkci stále více nabízet přímo, místo aby ji nechali na úplatách koncovým uživatelům. OpenAI již poskytuje uzavřený koncový bod komprese, což signalizuje změnu v oboru.

Attention Matching nakonec představuje významný krok na cestě k tomu, aby LLM bylo praktičtější a přístupnější podnikovým aplikacím. Snížením požadavků na paměť bez obětování přesnosti tato technika otevírá nové možnosti pro zpracování obrovských datových sad a složitých úkolů.