Google svela nuovi metodi per addestrare robot con video e LLM

Link copiato negli appunti

Il team di robotica di DeepMind ha svelato tre nuovi progressi che, a suo avviso, aiuteranno i robot a prendere decisioni migliori, più rapide e sicure. Il primo include un sistema per la raccolta di dati di addestramento con una “Costituzione robotica”. Ciò dovrebbe garantire, ad esempio, che l’assistente robot d’ufficio possa procurare più carta per stampante, ma senza falciare un collega umano che si trova per strada. Questo sistema di raccolta dati di Google, chiamato AutoRT, può utilizzare un modello di linguaggio visivo (VLM) e un modello di linguaggio di grandi dimensioni (LLM) che lavorano per comprendere l'ambiente, adattarsi a impostazioni non familiari e decidere attività appropriate.

Google: introdotti sistemi di sicurezza per evitare problemi con i robot

La Costituzione del robot, ispirata alle “Tre leggi della robotica” di Isaac Asimov, è descritta come una serie di “suggerimenti incentrati sulla sicurezza” che istruiscono l'LLM a evitare di scegliere compiti che coinvolgono esseri umani, animali, oggetti appuntiti e addirittura apparecchi elettrici. DeepMind ha infatti programmato i robot in modo che si fermino automaticamente se la forza delle loro braccia supera una certa soglia. Inoltre, gli sviluppatori hanno incluso un kill switch fisico che gli operatori umani possono utilizzare per disattivarli. Per un periodo di sette mesi, Google ha implementato una flotta di 53 robot AutoRT in quattro diversi edifici per uffici e ha condotto oltre 77.000 test. Alcuni robot erano controllati a distanza da operatori umani, mentre altri operavano sulla base di uno script o in modo completamente autonomo utilizzando il modello di apprendimento AI Robotic Transformer (RT-2) di Google.

I robot utilizzati nella sperimentazione sono dotati soltanto di fotocamera, braccio robotico e base mobile. Il loro lavoro al momento non è molto complesso. In un post sul proprio blog ufficiale, Google ha osservato che: “Per ciascun robot, il sistema utilizza un VLM per comprendere il suo ambiente e gli oggetti in vista. Successivamente, un LLM suggerisce un elenco di compiti creativi che il robot potrebbe svolgere, come ‘Mettere lo spuntino sul piano di lavoro’ e svolge il ruolo di decisore per selezionare un compito appropriato che il robot dovrà svolgere”. L'altra nuova tecnologia di DeepMind include SARA-RT. Si tratta di un'architettura di rete neurale progettata per rendere l'attuale Robotic Transformer RT-2 più preciso e veloce. Google ha infine annunciato RT-Trajectory, che aggiunge contorni 2D per aiutare i robot a eseguire al meglio icompiti fisici specifici, come ad esempio pulire un tavolo.

Google svela nuovi metodi per addestrare robot con video e LLM

Google: introdotti sistemi di sicurezza per evitare problemi con i robot

Ti consigliamo anche

Meta lancia Llama 4 con diversi nuovi modelli AI per app avanzate

OpenAI testa Watermark per le immagini generate da ChatGPT-4o

Tinder sperimenta i flirt con l'AI: risultati deludenti per gli utenti

Google: nuovo capo Gemini, quale sarà la prossima evoluzione?