Google DeepMind ha fatto progressi costanti nel campo dell'intelligenza artificiale con aggiornamenti regolari a Gemini, Imagen, Veo, Gemma e AlphaFold. Il team di Google DeepMind è entrato adesso anche nel settore della robotica con due nuovi modelli basati su Gemini 2.0: Gemini Robotics e Gemini Robotics-ER. Gemini Robotics è un modello avanzato di visione-linguaggio-azione (VLA) basato su Gemini 2.0, con l'aggiunta di azioni fisiche come nuova modalità di output per controllare i robot. Google afferma che questo nuovo modello può comprendere situazioni mai viste prima durante l'addestramento.
Gemini Robotics è basato sul modello Gemini 2.0, quindi presenta capacità di comprensione del linguaggio naturale in diverse lingue. Quindi, può comprendere i comandi delle persone in un modo molto migliore. Per quanto riguarda la destrezza, Google afferma che il nuovo modello può gestire compiti estremamente complessi e in più fasi che richiedono una manipolazione precisa. Ad esempio, questo modello può eseguire la piegatura origami o mettere uno spuntino in un sacchetto Ziploc.
Gemini Robotics: in arrivo robot umanoidi basati su Gemini 2.0
Gemini Robotics-ER è un modello avanzato di linguaggio visivo che si concentra sul ragionamento spaziale. Utilizzando questo modello, si potrà controllare un robot fin da subito. Ciò include ad esempio percezione, stima dello stato, comprensione spaziale, pianificazione e generazione di codice. Google sta collaborando con Apptronik per costruire robot umanoidi basati sui modelli Gemini 2.0. L’azienda sta anche lavorando con alcuni tester fidati, tra cui Agile Robots, Agility Robotics, Boston Dynamics ed Enchanted Tools, sul futuro di Gemini Robotics-ER. Consentendo ai robot di comprendere ed eseguire attività complesse con maggiore precisione e adattabilità, Google DeepMind sta aprendo la strada a un futuro in cui i robot possono integrarsi senza problemi in vari aspetti della vita umana.