OpenAI potrebbe lanciare un assistente digitale AI multimodale

Link copiato negli appunti

OpenAI avrebbe mostrato ad alcuni dei suoi clienti un nuovo modello di intelligenza artificiale multimodale in grado sia di parlare, ma anche di riconoscere gli oggetti. A rivelarlo è un nuovo report di The Information, che cita fonti anonime. Secondo quanto riferito, il nuovo modello offre un’interpretazione più rapida e accurata di immagini e audio rispetto ai modelli separati di trascrizione e sintesi vocale. Apparentemente, questo sarebbe in grado di aiutare gli agenti del servizio clienti a "comprendere meglio l'intonazione delle voci dei chiamanti e capire se sono sarcastici". Inoltre, sempre "in teoria", il modello può aiutare gli studenti con la matematica o tradurre i segnali del mondo reale. Le fonti affermano che il modello può superare GPT-4 Turbo nel “rispondere ad alcuni tipi di domande”, ma potrebbe ancora commettere degli errori.

OpenAI: i nuovi annunci non dovrebbero riguardare il prossimo GPT-5

Tra le altre novità, è possibile che OpenAI stia anche preparando una nuova funzionalità di ChatGPT per effettuare chiamate telefoniche. Ciò è quanto riporta lo sviluppatore Ananay Arora, che ha pubblicato lo screenshot con il codice relativo alle chiamate. Arora ha anche individuato prove del fatto che OpenAI aveva effettuato il provisioning di server destinati alla comunicazione audio e video in tempo reale. Queste prossime interessanti novità non dovrebbero comunque far parte di GPT-5. Il CEO Sam Altman ha esplicitamente negato che il suo prossimo annuncio abbia qualcosa a che fare con il modello successore di GPT-4. Le prime informazioni relative a GPT-5 potrebbero infatti essere rese pubbliche entro la fine dell'anno.

OpenAI seems to be working on having phone calls inside of chatGPT. This is probably going to be a small part of the event announced on Monday.
(1/n) pic.twitter.com/KT8Hb54DwA

— Ananay (@ananayarora) May 11, 2024

Altman ha anche affermato che la società non annuncerà un nuovo motore di ricerca basato sull’intelligenza artificiale. Ma se ciò che riporta The Information si rivelerà vero, le novità di OpenAI potrebbero “oscurare” i possibili annunci della conferenza degli sviluppatori Google I/O 2024 (che si terrà domani). Anche Google sembra aver ha testato l'utilizzo dell’AI per effettuare chiamate telefoniche. Inoltre, uno dei suoi progetti più chiacchierati è un sostituto multimodale di Google Assistant chiamato "Pixie" che può guardare gli oggetti attraverso la fotocamera di un dispositivo e fare cose come dare indicazioni sui luoghi in cui acquistarli o offrire istruzioni su come usarli. Mancano ormai poche ore alla live streaming di OpenAI in cui annuncerà le sue ultime novità. L’evento, atteso per le 10 PT (19 ora italiana), sarà davvero in grado di togliere visibilità a quello di Google? Lo scopriremo presto.