Google I/O: i nuovi modelli della famiglia Gemini

Link copiato negli appunti

Gemini, la famiglia di modelli generativi di Big G, è stata al centro del Google I/O. Un appuntamento durante il quale la compagnia californiana ha fornito anche delle anticipazioni riguardo agli LLM del futuro, in molti casi un futuro estremamente vicino. Si tratta di soluzioni sempre più orientate alla personalizzazione, alla creatività e alla produttività con una particolare attenzione alle performance e all'accuratezza degli output.

Veo e Gemini 1.5 Flash

Nel corso della conferenza è stato presentato Veo. Definito come il "modello più capace" di Mountain Viw, è stato sviluppato per generare video ad alta definizione.

Introducing Veo: our most capable generative video model. 🎥

It can create high-quality, 1080p clips that can go beyond 60 seconds.

From photorealism to surrealism and animation, it can tackle a range of cinematic styles. 🧵 #GoogleIO pic.twitter.com/6zEuYRAHpH

— Google DeepMind (@GoogleDeepMind) May 14, 2024

Ad esso si affianca Imagen 3 che vuole definire lo stato dell'arte per le piattaforme text-to-image con cui creare immagini, anche fotorealistiche, a partire da prompt testuali. Ma c'è spazio anche per la produzione audio, con Music AI Sandbox, addestrato grazie alla collaborazione con diversi artisti durante la creazione delle prime demo.

Together with @YouTube

To help us design and test them, we’ve been working closely with musicians, songwriters and producers. ↓ #GoogleIO pic.twitter.com/pMLa3aCveu

— Google DeepMind (@GoogleDeepMind) May 14, 2024

Ancora in fase sperimentale, Gemini 1.5 Flash è un modello in grado di migliorare velocità ed efficienza avvalendosi dei feedback inviati dagli utilizzatori. Ciò dovrebbe garantire maggiore velocità nelle risposte limitando al minimo le latenze. Project Astra è invece un'iniziativa legata allo sviluppo di un assistente AI di nuova generazione, con una capacità estremamente avanzata di comprendere il contesto di una richiesta e fornire risposte in base ad esso.

Gemini 1.5 Pro in Gemini Advanced

Google ha deciso di introdurre Gemini 1.5 Pro per gli abbonati della formula Gemini Advanced. Le lingue supportate sono più di 35 mentre la finestra contestuale è di ben 1 milione di token, la più lunga offerta attualmente da un chatbot animato tramite l'AI generativa. A livello pratico ciò si traduce nella capacità di creare documenti PDF di 1.500 pagine e, nel prossimo futuro, video della durata di un'ora e circa 30 mila righe di codice. Gemini Advanced è inoltre disponibile anche in lingua italiana.

TPU Trillium

Come ricordato da Mountain View, gli attuali progressi degli LLM sono possibili solo grazie alla potenza di calcolo offerta da un'infrastruttura hardware all'avanguardia. Per questa ragione il Google I/O è stato anche l'occasione per presentare la sesta generazione delle TPU Trillium. Grazie ad essa si avrà un miglioramento pari a 4.7 volte in fase di elaborazione rispetto a TPU v5e. La sua disponibilità per gli utenti della Cloud Platform è stata garantita entro l'anno.

AI-assisted red teaming

Durante la manifestazione Google ha voluto promuovere ancora una volta un approccio responsabile allo sviluppo delle AI. Ispirandosi alle scoperte di DeepMind nel campo dei giochi come AlphaGo, la società ha adottato una tecnica chiamata AI-assisted red teaming che si basa sul testing interattivo dei modelli. Questo per limitare comportamenti imprevisti come la produzione di contenuti controversi e la violazione di diritti d'autore. SynthID è stato inoltre migliorato per operare sia su testi che video ed effettuare il watermarking dei contenuti AI in modo da facilitarne il riconoscimento.