OpenAI ha iniziato a distribuire la modalità vocale avanzata di ChatGPT martedì, offrendo agli utenti il primo accesso alle risposte audio iperrealistiche di GPT-4o. La versione alpha è già disponibile per un piccolo gruppo di utenti di ChatGPT Plus. Tuttavia, OpenAI afferma che la funzionalità verrà gradualmente distribuita a tutti gli utenti Plus nell'autunno del 2024.Quando OpenAI ha mostrato per la prima volta la voce di GPT-4o a maggio, la funzionalità ha scioccato il pubblico con risposte rapide e una strana somiglianza con la voce di un vero essere umano, in particolare di uno. La voce, Sky, assomigliava a quella di Scarlett Johansson, l'attrice dietro l'assistente artificiale nel film "Her". Subito dopo la demo di OpenAI, Johansson ha affermato di aver rifiutato le molteplici richieste del CEO Sam Altman di usare la sua voce.
OpenAI ha negato di aver usato la voce di Johansson, ma in seguito ha rimosso la voce mostrata nella sua demo. A giugno, OpenAI ha affermato che avrebbe ritardato il rilascio dell’Advanced Voice Mode per migliorare le sue misure di sicurezza. Un mese dopo, l'attesa è finita (più o meno). OpenAI afferma che le capacità di condivisione video e schermo mostrate durante il suo Spring Update non faranno parte di questa alpha, ma verranno lanciate in una "data successiva". Per ora, la modalità GPT-4o che ha lasciato tutti a bocca aperta è ancora solo una demo. Tuttavia, alcuni utenti premium hanno già accesso a tale funzionalità vocale di ChatGPT.
ChatGPT: come funzionano le voci preimpostate del modello di OpenAI
La vecchia soluzione di ChatGPT per l'audio utilizzava tre modelli separati. Il primo convertiva la voce in testo, GPT-4 elaborava i prompt e poi un terzo convertiva il testo di ChatGPT in voce. GPT-4o è multimodale, in grado di elaborare queste attività senza l'ausilio di modelli ausiliari, creando conversazioni con una latenza significativamente inferiore. OpenAI afferma inoltre che GPT-4o può percepire le intonazioni emotive nella voce, tra cui tristezza, eccitazione o canto. I fortunati utenti di ChatGPT Plus potranno vedere in prima persona quanto sia iperrealistica la modalità vocale avanzata di OpenAI. OpenAI afferma che sta rilasciando gradualmente la nuova voce di ChatGPT per monitorarne attentamente l'utilizzo. Le persone nel gruppo alpha riceveranno un avviso nell'app ChatGPT, seguito da un'e-mail con le istruzioni su come utilizzarla.
OpenAI afferma di aver testato le capacità vocali di GPT-4o con oltre 100 membri esterni del red team che parlano 45 lingue diverse. Secondo l’azienda, Advanced Voice Mode sarà limitata alle quattro voci preimpostate di ChatGPT, Juniper, Breeze, Cove ed Ember, realizzate in collaborazione con doppiatori pagati. La voce di Sky mostrata nella demo di maggio di OpenAI non è più disponibile in ChatGPT. La portavoce di OpenAI, Lindsay McCallum, afferma che "ChatGPT non può impersonare le voci di altre persone, sia singole che personaggi pubblici, e bloccherà gli output che differiscono da una di queste voci preimpostate".