Nova técnica de IA reduz as necessidades de memória LLM em 50X sem perda de qualidade

0
4

Os grandes modelos de linguagem (LLMs) estão rapidamente a tornar-se ferramentas essenciais para a ia empresarial, mas os seus enormes requisitos de memória representam um grande obstáculo. A questão central reside no cache * * KV**: a memória de trabalho que armazena cada token passado para evitar a recomputação. À medida que os comprimentos de contexto crescem—pense na análise de documentos legais longos ou na manutenção de diálogos com clientes de várias voltas-esse cache aumenta, sobrecarregando o hardware e limitando o desempenho.

Pesquisadores do MIT desenvolveram * * correspondência de atenção, uma nova técnica que comprime a memória LLM em até 50x sem sacrificar a precisão. Este avanço ultrapassa as limitações dos métodos existentes, oferecendo uma solução viável para aplicações empresariais do mundo real onde a compressão extrema é crítica.

O gargalo do Cache KV explicado

LLMs gerar texto uma palavra (token) de cada vez. Para responder coerentemente, eles precisam se lembrar de interações anteriores. Em vez de recalcular tudo para cada novo token, os modelos armazenam pares chave-valor que representam entradas anteriores no cache KV. Isso evita o processamento redundante, mas o cache é dimensionado linearmente com o comprimento da conversa, consumindo hardware cada vez mais caro.

Como Adam Zweiger, coautor do estudo, explica: “a memória cache KV é o maior gargalo para servir modelos em contexto ultralongo.”O tamanho crescente restringe a concorrência, força tamanhos de lote menores e pode até exigir o descarregamento de dados para um armazenamento mais lento. Para Tarefas como analisar contratos maciços ou executar agentes de codificação complexos, o cache KV pode facilmente alcançar gigabytes por solicitação do Usuário.

Os Métodos De Compressão Existentes São Insuficientes

A indústria da IA explorou várias estratégias para resolver este problema, mas a maioria apresenta graves desvantagens. O despejo ou fusão simples de token degrada o desempenho em taxas de compressão mais altas. A sumarização, uma solução comum, introduz uma perda significativa de informação, prejudicando a precisão a jusante. Mesmo os métodos de ponta, como os cartuchos, que utilizam a otimização baseada em gradientes, são demasiado lentos para ambientes empresariais em tempo real.

Os cartuchos podem atingir alta compressão, mas requerem horas de processamento de GPU para um único contexto, tornando-o impraticável para uso imediato. É evidente a necessidade de uma solução mais rápida e eficiente.

Como Funciona A Correspondência De Atenção: Um Avanço Matemático

A correspondência de atenção evita o lento processo de formação, aproveitando as principais propriedades matemáticas dos mecanismos de atenção LLM. Os pesquisadores perceberam que a preservação de dois elementos cruciais—a saída de atenção (a informação real extraída da memória) e a massa de atenção (o peso relativo de cada token)—é suficiente para imitar a memória original não comprimida.

Ao replicar com precisão estas propriedades, a memória comprimida comporta-se de forma idêntica à versão completa, mesmo com avisos imprevisíveis do utilizador. A técnica gera “consultas de referência” (pesquisas internas simuladas) para garantir que a memória comprimida possa responder a perguntas com a mesma precisão que antes.

Esta abordagem baseia-se em técnicas algébricas eficientes, evitando a otimização baseada em gradiente de computação intensiva de outros métodos. O sistema preserva as chaves de alta atenção e calcula os valores correspondentes usando algoritmos padrão, alcançando velocidades dramáticas.

Resultados do mundo Real: compressão de 50x sem perda de precisão

Testes com modelos como Llama 3.1 e Qwen-3 em conjuntos de dados como QuALITY (reading comprehension) e LongHealth (dense medical records) confirmaram a eficácia do método. A correspondência de atenção comprimiu o cache KV em 50x sem reduzir a precisão, um feito que anteriormente exigia horas de computação da GPU.

Em contraste, a sumarização padrão falhou completamente nos registros médicos complexos, não tendo melhor desempenho do que um modelo sem contexto. Enquanto a compressão extrema (100x) favorece métodos mais lentos, como cartuchos em dados altamente densos, a correspondência de atenção permanece superior em 50x para a maioria dos casos de uso corporativo.

Implicações e perspectivas futuras

Os pesquisadores lançaram o código para correspondência de atenção, mas a implementação requer acesso a pesos de modelo, limitando seu uso para aqueles que dependem apenas de APIs fechadas. A integração dessa técnica na infraestrutura de IA existente exigirá esforço de engenharia, dada a complexidade dos sistemas atuais, como o Cache de prefixos.

No entanto, as aplicações potenciais são imediatas, como a compressão de grandes saídas de chamadas de ferramentas ou o pós-processamento de documentos longos. A tendência para a compactação mecânica do espaço latente sugere que os fornecedores de modelos oferecerão cada vez mais esta funcionalidade directamente, em vez de a deixarem aos utilizadores finais. A OpenAI já fornece um ponto final de compactação de caixa preta, sinalizando uma mudança na indústria.

Em última análise, a correspondência de atenção representa um passo significativo no sentido de tornar os LLMs mais práticos e acessíveis para aplicações empresariais. Ao reduzir os requisitos de memória sem sacrificar a precisão, esta técnica abre novas possibilidades para lidar com conjuntos de dados maciços e tarefas complexas.

Previous articleÓculos inteligentes da Meta: o reconhecimento facial está chegando e levanta sérias preocupações