Gemini Embedding 2 di Google: un balzo in avanti nell’intelligenza artificiale multimodale

0
16

Google ha rilasciato Gemini Embedding 2, un nuovo modello di intelligenza artificiale progettato per unificare il modo in cui le macchine comprendono e recuperano informazioni da diversi tipi di media. Questo non è solo un aggiornamento incrementale; si tratta di un cambiamento fondamentale nel modo in cui l’intelligenza artificiale elabora i dati, riducendo potenzialmente i costi e aumentando la velocità per le aziende che si affidano a informazioni basate sull’intelligenza artificiale.

Il problema con i modelli di incorporamento precedenti

I modelli di incorporamento tradizionali, i motori alla base della ricerca, dei consigli e dell’intelligenza artificiale aziendale, si sono storicamente concentrati sul testo. Per analizzare immagini, video o audio, questi modelli li traducono prima in testo, aggiungendo passaggi che introducono errori e rallentano le prestazioni. Gemini Embedding 2 elimina questo collo di bottiglia integrando nativamente testo, immagini, video, audio e documenti in un unico spazio matematico.

Come funziona Gemini Embedding 2: l’analogia della “Biblioteca universale”.

Pensa a una biblioteca vecchio stile organizzata per categorie rispetto a una futuristica in cui i libri si organizzano in base alla loro essenza. Questo è ciò che fa un modello di incorporamento: converte dati complessi in coordinate numeriche in una mappa ad alta dimensione. Elementi simili si raggruppano insieme, indipendentemente dal formato. Una foto di un golden retriever e la frase “il migliore amico dell’uomo” sarebbero state affiancate, mentre una poesia al tramonto si sarebbe spostata verso una fotografia della costa del Pacifico.

Gemini Embedding 2 mappa tutti i media in uno spazio unificato di 3.072 dimensioni, consentendo agli sviluppatori di effettuare ricerche tra formati senza sistemi separati per immagini, testo o video. Ciò si ottiene attraverso il “Matryoshka Representation Learning” di Google, che dà priorità alle informazioni chiave per l’efficienza.

Perché è importante: efficienza e precisione

Il passaggio a un’architettura nativamente multimodale offre vantaggi tangibili:

  • Latenza ridotta : alcuni dei primi tester riportano tempi di elaborazione fino al 70% più rapidi.
  • Costi inferiori : eliminando le fasi intermedie di “traduzione”, le aziende possono risparmiare sulle risorse computazionali.
  • Comprensione più approfondita : il modello comprende direttamente l’audio come suono e il video come movimento, catturando le sfumature perse nell’analisi del solo testo.

Aziende come Sparkonomy hanno già registrato significativi miglioramenti in termini di efficienza, mentre Everlaw sta utilizzando il modello per affrontare complesse attività di discovery legale.

Specifiche tecniche: cosa devono sapere gli sviluppatori

Il modello gestisce file con un massimo di 8.192 token di testo, sei immagini, 128 secondi di video, 80 secondi di audio e sei pagine PDF per richiesta. Si tratta di limiti di input, non di limiti di archiviazione: il sistema può gestire milioni di documenti.

Google offre prezzi scaglionati tramite l’API Gemini e Vertex AI:

  • Livello gratuito : accesso limitato per la sperimentazione.
  • Livello a pagamento : 0,25 $ per milione di token per testo, immagini e video; $ 0,50 per milione di token per l’audio.

The model is also integrated with popular AI frameworks like LangChain and LlamaIndex, simplifying adoption. Il codice è concesso in licenza con Apache 2.0, consentendo l’uso commerciale senza obblighi di royalty.

Le imprese dovrebbero migrare?

Per le organizzazioni che fanno affidamento su pipeline di intelligenza artificiale frammentate, la migrazione a Gemini Embedding 2 è probabilmente una necessità strategica. Il modello semplifica i flussi di lavoro, riduce gli errori e abbassa i costi. La transizione è resa più semplice dalla continuità dell’API e dall’integrazione con gli strumenti esistenti.

Tuttavia, le aziende devono gestire i limiti di input suddividendoli in blocchi di file di grandi dimensioni prima dell’elaborazione. Il vero investimento sta nel reindicizzare i dati esistenti per sfruttare appieno le nuove funzionalità.

In conclusione: Gemini Embedding 2 non è solo un altro aggiornamento dell’IA; è un passo avanti verso un modo più unificato, efficiente e accurato di elaborare le informazioni nell’azienda moderna.