Великі мовні моделі (LLM) стрімко стають незамінними інструментами для корпоративного ШІ, але їх величезні вимоги до пам’яті створюють серйозну перешкоду. Основна проблема полягає в * * Kv-кеші**: робочої пам’яті, яка зберігає кожен минулий токен, щоб уникнути повторних обчислень. У міру збільшення довжини контексту — наприклад, при аналізі довгих юридичних документів або веденні багатоходових діалогів з клієнтами-цей кеш розростається, перевантажуючи обладнання і обмежуючи продуктивність.
Дослідники з Массачусетського технологічного інституту (MIT) розробили Attention Matching, нову методику, яка стискає пам’ять LLM до 50 разів без зниження точності. Цей прорив обходить обмеження існуючих методів, пропонуючи життєздатне рішення для реальних корпоративних додатків, де потрібне екстремальне стиснення.
Пояснення вузького місця кешу KV
LLM генерують текст по одному слову (токенам) за раз. Щоб відповідати зв’язно, їм потрібно пам’ятати попередні взаємодії. Замість того, щоб перераховувати все для кожного нового маркера, моделі зберігають пари «ключ-значення», що представляють минулі дані, у кеші KV. Це запобігає надмірній обробці, але кеш масштабується лінійно з довжиною розмови, споживаючи все більш дороге обладнання.
Як пояснює Адам Цвайгер, один з авторів дослідження, «пам’ять Kv-кешу — найбільша перешкода для обслуговування моделей з ультрадовгим контекстом». Зростаючий розмір обмежує паралельність, змушує менші пакетні розміри і навіть може вимагати скидання даних у повільнішу пам’ять. Для таких завдань, як аналіз величезних контрактів або запуск складних кодуючих агентів, кеш KV може легко досягати гігабайт на запит Користувача.
Існуючі методи стиснення виявляються недостатніми
В ШІ-індустрії вивчалися різні стратегії вирішення цієї проблеми, але більшість з них мають серйозні недоліки. Просте видалення або об’єднання токенів знижує продуктивність при більш високих коефіцієнтах стиснення. Підсумовування, поширений обхідний шлях, призводить до значної втрати інформації, погіршуючи точність наступних операцій. Навіть найкращі практики, такі як Cartridges, які використовують оптимізацію на основі градієнтів, занадто повільні для реальних корпоративних середовищ.
Cartridges можуть досягти високого стиснення, але вимагають годин обробки на GPU для одного контексту, що робить їх непрактичними для негайного використання. Необхідність більш швидкого і ефективного рішення очевидна.
Як працює Attention Matching: математичний прорив
Attention Matching уникає тривалого процесу навчання, використовуючи ключові математичні властивості механізмів уваги LLM. Дослідники виявили, що збереження двох важливих елементів — виходу уваги (фактичної інформації, витягнутої з пам’яті) і маси уваги (відносної ваги кожного токена) — досить, щоб імітувати вихідну, нестиснуту пам’ять.
Точно відтворюючи ці властивості, стиснута пам’ять поводиться ідентично повній версії, навіть при непередбачуваних запитах користувача. Метод генерує “довідкові запити” (імітовані внутрішні пошуки), щоб переконатися, що стиснута пам’ять може відповідати на запитання так само точно, як і раніше.
Цей підхід спирається на ефективні алгебраїчні методи, уникаючи оптимізації на основі градієнтів, що використовується в інших методах. Система зберігає високозначні ключі і обчислює відповідні значення, використовуючи стандартні алгоритми, досягаючи значного прискорення.
Реальні результати: стиснення в 50 разів без втрати точності
Тестування з моделями, такими як Llama 3.1 та Qwen-3, на наборах даних, таких як QuALITY (розуміння читання) та LongHealth (великі медичні записи), підтвердило ефективність методу. Attention Matching стиснув Kv-кеш в 50 разів без зниження точності, що раніше вимагало годин обчислень на GPU.
На відміну від цього, стандартне підсумовування повністю провалилося на складних медичних записах, працюючи не краще моделі без контексту. Хоча екстремальне стиснення (100x) сприяє більш повільним методам, таким як Cartridges, при роботі з високощільними даними, Attention Matching залишається перевершеним при 50x для більшості корпоративних сценаріїв.
Наслідки та перспективи
Дослідники опублікували код для Attention Matching, але реалізація вимагає доступу до ваг моделі, що обмежує його використання для тих, хто покладається виключно на закриті API. Інтеграція цієї техніки в існуючу інфраструктуру ШІ вимагатиме інженерних зусиль, враховуючи складність поточних систем, таких як кешування префіксів.
Однак потенційні програми очевидні, такі як стиснення великих результатів інструментів або довгих документів після обробки. Тенденція до механічного, латентно-просторового стиснення передбачає, що постачальники моделей все частіше пропонуватимуть цю функціональність безпосередньо, а не залишатимуть її на відкуп кінцевим користувачам. OpenAI вже забезпечує закриту кінцеву точку стиснення, що сигналізує про зміну галузі.
Зрештою, Attention Matching є значним кроком на шляху до того, щоб зробити LLM більш практичними та доступними для корпоративних додатків. Скорочуючи вимоги до пам’яті без шкоди для точності, ця техніка відкриває нові можливості для обробки величезних наборів даних і складних завдань.





















































