Gemini 2.0 Flash arriverà con output nativo per immagini e audio

Link copiato negli appunti

Nelle scorse ore, Google ha dato il via alla sua era Gemini 2.0 con il nuovo modello Gemini 2.0 Flash. Google afferma che questo nuovo modello supera persino Gemini 1.5 Pro nei benchmark principali ed è anche 2 volte più veloce. Oltre alle prestazioni migliorate e alla bassa latenza, Gemini 2.0 Flash è dotato anche di supporto nativo per output multimodale, tra cui immagini generate in modo nativo mescolate a testo e audio multilingue text-to-speech (TTS) orientabile. Il modello supporta anche input multimodali come immagini, video e audio. Inoltre, può anche richiamare in modo nativo strumenti, tra cui Google Search, esecuzione di codice e altri.

Gemini 2.0 Flash: novità per gli sviluppatori e agenti AI in arrivo

Con il nuovo aggiornamento, gli sviluppatori possono ora provare la versione sperimentale del modello Gemini 2.0 Flash in AI Studio e Vertex AI. Questi possono anche testare la nuova API Multimodal Live che offre audio live, input di streaming video e la possibilità di utilizzare più strumenti combinati. Il nuovo modello è disponibile per i consumer tramite la versione Gemini per desktop e sul web mobile. La versione app per Android e iOS dovrebbe arrivare in un secondo momento. Google annuncerà la disponibilità generale di Gemini 2.0 Flash a gennaio 2025.

Insieme a questo modello, Google ha anche annunciato diversi prototipi che esplorano le capacità agentiche di Gemini 2.0. Uno di questi è Project Astra, che può conversare in più lingue e lingue miste. Adesso ha fino a 10 minuti di memoria in sessione e può usare Google Search, Lens e Maps. L’altro prototipo è Project Mariner, un agente AI in grado di comprendere e ragionare sulle informazioni sullo schermo del browser per completare le attività. Google afferma che Project Mariner ha raggiunto un risultato all'avanguardia dell'83,5% lavorando come configurazione di un singolo agente. Infine, Google ha mostrato Jules, un agente di codice basato su AI che si integra direttamente in un flusso di lavoro GitHub per risolvere un problema, sviluppare un piano ed eseguirlo. Grazie alle sue capacità multimodali e all'integrazione di strumenti nativi, Gemini 2.0 Flash apre interessanti possibilità sia per gli sviluppatori che per gli utenti consumer.

Gemini 2.0 Flash arriverà con output nativo per immagini e audio

Gemini 2.0 Flash: novità per gli sviluppatori e agenti AI in arrivo

Ti consigliamo anche

Grammarly acquisisce la startup AI Coda Project

YouTube potrà presto rilevare deepfake di creator e celebrità

Google: via libera all’AI in settori critici, ma con controllo umano

OpenAI include il modello o1 nella sua API, ma non per tutti