Gli agenti hanno bisogno di una ricerca specializzata, non solo di memoria LLM

0
12

Il clamore iniziale attorno ai modelli linguistici di grandi dimensioni (LLM) suggeriva che le loro finestre di contesto in espansione avrebbero reso obsoleta la ricerca vettoriale dedicata. L’idea era semplice: perché costruire un’infrastruttura separata quando la “memoria” dell’intelligenza artificiale poteva gestire da sola il recupero? Tuttavia, le tendenze recenti e le implementazioni nel mondo reale dimostrano il contrario. Gli agenti necessitano più che mai di un livello di recupero robusto e appositamente creato.

Il problema della scalabilità dell’intelligenza artificiale agentica

Gli LLM si stanno evolvendo da semplici chatbot ad agenti autonomi. Ciò significa un cambiamento drammatico nel modo in cui utilizzano i dati. Gli esseri umani effettuano alcune query al minuto; gli agenti generano centinaia o migliaia al secondo mentre raccolgono informazioni per il processo decisionale. Questo volume supera i sistemi progettati per il tradizionale Retrieval-Augmented Generation (RAG), lo standard precedente.

Qdrant, una società di ricerca vettoriale open source, si è recentemente assicurata un round di finanziamento di serie B da 50 milioni di dollari, dimostrando la fiducia degli investitori in questa tendenza. La loro ultima versione (versione 1.17) affronta direttamente le sfide dei carichi di lavoro degli agenti:

  • Ricerca con elevato richiamo: gli agenti richiedono un recupero accurato di enormi set di dati, cosa che la memoria LLM da sola non può garantire.
  • Aggiornamenti in tempo reale: i dati cambiano costantemente. I sistemi di recupero devono indicizzare e fornire rapidamente nuove informazioni, altrimenti rischiano di fornire risultati obsoleti.
  • Infrastruttura scalabile: il processo decisionale autonomo richiede prestazioni sostenute in caso di carichi di query estremi.

Perché i sistemi esistenti falliscono

I database generici possono archiviare vettori, ma non hanno la qualità di recupero su larga scala richiesta dagli agenti. Emergono tre principali modalità di fallimento:

  1. Risultati mancati: su scala di documento, un singolo risultato mancato non è solo un problema di latenza; è un difetto critico che influisce su ogni decisione presa da un agente.
  2. Rilevanza ridotta: l’indicizzazione dei nuovi dati richiede tempo. Le ricerche su informazioni nuove diventano più lente e meno accurate proprio quando i dati attuali sono più importanti.
  3. Colli di bottiglia della latenza: Repliche lente nell’infrastruttura distribuita riducono le prestazioni in tutte le chiamate agli strumenti paralleli, costringendo gli agenti ad attendere invece di agire.

L’ascesa del recupero specializzato

Le aziende stanno già migrando verso un’infrastruttura di ricerca appositamente creata. Qdrant non è il solo in questa tendenza; lo spostamento riflette una chiara necessità di motori di ricerca dedicati rispetto a database generalizzati.

Il CEO di Qdrant, Andre Zayarni, sostiene che stanno costruendo un livello di recupero delle informazioni per l’era dell’intelligenza artificiale, non solo un altro database vettoriale. La chiave è la qualità del recupero su scala di produzione.

Esempi dal mondo reale

Due aziende esemplificano questo cambiamento:

  • GlassDollar: questa startup aiuta le aziende a valutare altre startup. Sono passati da Elasticsearch a Qdrant, riducendo i costi dell’infrastruttura del 40%, eliminando una soluzione alternativa alla pertinenza e aumentando il coinvolgimento degli utenti del 300%. Il loro successo dipende dal richiamo : la capacità di far emergere i migliori candidati, non solo alcuni risultati.
  • &AI: Sviluppando l’intelligenza artificiale per le controversie sui brevetti, &AI si affida a Qdrant per ridurre al minimo il rischio di allucinazioni. Il loro sistema dà priorità al radicamento dei risultati in documenti reali, rendendo il recupero il nucleo primitivo, non la generazione.

Quando effettuare il passaggio

Inizia con qualsiasi supporto vettoriale di cui già disponi. Migrare a un’infrastruttura specializzata quando:

  1. La qualità del recupero influisce sui risultati aziendali: se la precisione influisce direttamente sulle entrate, sulla fiducia degli utenti o sulla conformità legale, è necessaria una ricerca dedicata.
  2. Emergono modelli di query complessi: L’espansione, la riclassificazione e le chiamate a strumenti paralleli richiedono più di quanto la ricerca vettoriale di base possa fornire.
  3. Il volume dei dati esplode: Decine di milioni di documenti richiedono un livello di recupero scalabile e ottimizzato.

In conclusione, la memoria LLM e le finestre di contesto estese non sostituiscono l’infrastruttura di ricerca dedicata. Il futuro dell’intelligenza artificiale degli agenti dipende dal recupero scalabile e di alta qualità. Il mercato sta cambiando e coloro che ritardano si troveranno in una situazione di svantaggio competitivo.

Previous articleI tuoi dati sono il prodotto: come i data broker traggono profitto dalla tua vita personale
Next article10 cose che odio di te Aumenta la popolarità su Netflix