ChatGPT è ora in grado di comprendere i video in tempo reale

Link copiato negli appunti

OpenAI ha finalmente rilasciato le funzionalità per i video in tempo reale su ChatGPT che aveva annunciato quasi sette mesi fa. L'azienda ha affermato che Advanced Voice Mode, la sua funzionalità di conversazione simile a quella umana per ChatGPT, sta acquisendo capacità visive. Utilizzando l'app ChatGPT, gli utenti abbonati a ChatGPT Plus, Team o Pro possono puntare i loro telefoni verso oggetti e far sì che l’AI risponda quasi in tempo reale. Advanced Voice Mode con capacità visive può anche capire cosa c'è sullo schermo di un dispositivo tramite la condivisione dello schermo. Può anche spiegare vari menu di impostazioni, ad esempio, o dare suggerimenti su un problema di matematica.

Per accedere a questa funzionalità, basta toccare l'icona della voce accanto alla barra della chat dell’app e poi l'icona del video in basso a sinistra. Per condividere lo schermo, toccare il menu (i tre puntini) e selezionare "Condividi schermo". Come ricorda OpenAI, il lancio di Advanced Voice Mode con capacità visive è già iniziato e si concluderà la settimana prossima. Tuttavia, bisogna ricordare che non tutti gli utenti potranno accedervi. L’azienda afferma che gli abbonati a ChatGPT Enterprise ed Edu non otterranno la funzionalità prima di gennaio. Inoltre, non vi è una tempistica per gli utenti di ChatGPT nell'UE, in Svizzera, in Islanda, in Norvegia o nel Liechtenstein.

ChatGPT: Advanced Voice Mode a volte incline alle allucinazioni

In una recente demo su "60 Minutes" della CNN, il presidente di OpenAI, Greg Brockman, ha fatto usare l’app ad Anderson Cooper per testare le nuove capacità di Advanced Voice. Mentre Cooper disegnava parti del corpo su una lavagna, ChatGPT poteva "capire" cosa il giornalista stava disegnando. Nella stessa demo, Advanced Voice Mode con capacità visive ha commesso un errore su un problema di geometria. Questo suggerisce che, come altri tool AI, anche questo è incline alle allucinazioni. Advanced Voice Mode con capacità visive è stato ritardato più volte. Ciò è presumibilmente avvenuto perché OpenAI ha annunciato la funzionalità molto prima che fosse pronta per la produzione. Ad aprile, OpenAI ha promesso che Advanced Voice Mode sarebbe stata distribuita agli utenti "entro poche settimane". Mesi dopo, l'azienda ha affermato di aver bisogno di più tempo.

Quando Advanced Voice Mode è finalmente arrivata all'inizio dell'autunno per alcuni utenti di ChatGPT, mancava il componente di analisi visiva. In vista del lancio di giovedì, OpenAI ha concentrato la sua attenzione sul portare l'esperienza Advanced Voice Mode solo vocale su altre piattaforme e utenti nell'UE. Rivali come Google e Meta stanno lavorando su funzionalità simili per i rispettivi prodotti chatbot. Questa settimana, Google ha reso disponibile la sua funzionalità di intelligenza artificiale conversazionale in tempo reale e analisi video, Project Astra, a un gruppo di "tester fidati" su Android. Oltre alla modalità Advance Voice con capacità visive, OpenAI ha lanciato una "Santa Mode". Questa funzionalità aggiunge infatti la voce di Babbo Natale come voce preimpostata in ChatGPT. Gli utenti possono trovarla toccando o cliccando sull'icona del fiocco di neve nell'app ChatGPT accanto alla barra dei prompt.

ChatGPT è ora in grado di comprendere i video in tempo reale

ChatGPT: Advanced Voice Mode a volte incline alle allucinazioni

Ti consigliamo anche

Instagram introdurrà una funzionalità di editing video AI nel 2025

Google Chrome testa flag di rilevamento delle truffe basato sull’AI

Apple Intelligence: RSF reagisce a fake news su Luigi Mangione

Gemini 2.0 Flash Thinking: nuovo LLM Google sfida OpenAI o1