Новая технология ИИ сокращает потребности LLM в памяти в 50 раз без потери качества

0
2

Большие языковые модели (LLM) стремительно становятся незаменимыми инструментами для корпоративного ИИ, но их огромные требования к памяти создают серьезное препятствие. Основная проблема заключается в KV-кэше : рабочей памяти, которая хранит каждый прошлый токен, чтобы избежать повторных вычислений. По мере увеличения длины контекста — например, при анализе длинных юридических документов или ведении многоходовых диалогов с клиентами — этот кэш разрастается, перегружая оборудование и ограничивая производительность.

Исследователи из Массачусетского технологического института (MIT) разработали Attention Matching, новую методику, которая сжимает память LLM до 50 раз без снижения точности. Этот прорыв обходит ограничения существующих методов, предлагая жизнеспособное решение для реальных корпоративных приложений, где требуется экстремальное сжатие.

Объяснение узкого места KV-кэша

LLM генерируют текст по одному слову (токенам) за раз. Чтобы отвечать связно, им нужно помнить предыдущие взаимодействия. Вместо того чтобы пересчитывать всё для каждого нового токена, модели хранят пары «ключ-значение», представляющие прошлые данные, в KV-кэше. Это предотвращает избыточную обработку, но кэш масштабируется линейно с длиной разговора, потребляя всё более дорогостоящее оборудование.

Как объясняет Адам Цвайгер, один из авторов исследования, «память KV-кэша — самое большое препятствие для обслуживания моделей с ультрадлинным контекстом». Растущий размер ограничивает параллелизм, вынуждает использовать меньшие пакетные размеры и даже может потребовать выгрузки данных в более медленную память. Для таких задач, как анализ огромных контрактов или запуск сложных кодирующих агентов, KV-кэш может легко достигать гигабайт на один запрос пользователя.

Существующие методы сжатия оказываются недостаточными

В ИИ-индустрии изучались различные стратегии решения этой проблемы, но большинство из них имеют серьезные недостатки. Простое удаление или объединение токенов снижает производительность при более высоких коэффициентах сжатия. Суммирование, распространенный обходной путь, приводит к значительной потере информации, ухудшая точность последующих операций. Даже передовые методы, такие как Cartridges, использующие оптимизацию на основе градиентов, слишком медленны для реальных корпоративных сред.

Cartridges могут достичь высокого сжатия, но требуют часов обработки на GPU для одного контекста, что делает их непрактичными для немедленного использования. Необходимость более быстрого и эффективного решения очевидна.

Как работает Attention Matching: математический прорыв

Attention Matching избегает длительного процесса обучения, используя ключевые математические свойства механизмов внимания LLM. Исследователи обнаружили, что сохранения двух важных элементов — выхода внимания (фактической информации, извлеченной из памяти) и массы внимания (относительного веса каждого токена) — достаточно, чтобы имитировать исходную, несжатую память.

Точно воспроизводя эти свойства, сжатая память ведет себя идентично полной версии, даже при непредсказуемых запросах пользователя. Метод генерирует «эталонные запросы» (смоделированные внутренние поиски), чтобы гарантировать, что сжатая память может отвечать на вопросы так же точно, как и раньше.

Этот подход опирается на эффективные алгебраические методы, избегая ресурсоемкой оптимизации на основе градиентов, используемой в других методах. Система сохраняет высокозначимые ключи и вычисляет соответствующие значения, используя стандартные алгоритмы, достигая значительного ускорения.

Реальные результаты: сжатие в 50 раз без потери точности

Тестирование с моделями, такими как Llama 3.1 и Qwen-3, на наборах данных, таких как QuALITY (понимание прочитанного) и LongHealth (обширные медицинские записи), подтвердило эффективность метода. Attention Matching сжал KV-кэш в 50 раз без снижения точности, что ранее требовало часов вычислений на GPU.

В отличие от этого, стандартное суммирование полностью провалилось на сложных медицинских записях, работая не лучше модели без контекста. Хотя экстремальное сжатие (100x) благоприятствует более медленным методам, таким как Cartridges, при работе с высокоплотными данными, Attention Matching остается превосходящим при 50x для большинства корпоративных сценариев.

Последствия и перспективы

Исследователи опубликовали код для Attention Matching, но реализация требует доступа к весам модели, что ограничивает его использование для тех, кто полагается исключительно на закрытые API. Интеграция этой техники в существующую ИИ-инфраструктуру потребует инженерных усилий, учитывая сложность текущих систем, таких как кэширование префиксов.

Однако потенциальные приложения очевидны, такие как сжатие больших выходных данных инструментов или длинных документов после обработки. Тенденция к механическому, латентно-пространственному сжатию предполагает, что поставщики моделей будут все чаще предлагать эту функциональность напрямую, а не оставлять ее на откуп конечным пользователям. OpenAI уже предоставляет закрытый конечный пункт сжатия, что сигнализирует об изменении в отрасли.

В конечном итоге Attention Matching представляет собой значительный шаг на пути к тому, чтобы сделать LLM более практичными и доступными для корпоративных приложений. Сокращая требования к памяти без ущерба для точности, эта техника открывает новые возможности для обработки огромных наборов данных и сложных задач.

Предыдущая статьяУмные очки Meta: Распознавание лиц неизбежно и вызывает серьезные опасения