Dopo il lancio di ChatGPT e simili è stata posta molta enfasi sulla sicurezza, con il coinvolgimento dei governi e OpenAI che ha persino creato un team di superallineamento per impedire che la futura AI diventasse più intelligente dell’uomo. A maggio, ChatGPT ha fatto un grande passo avanti quando OpenAI ha offerto agli utenti l'accesso gratuito al suo nuovo modello multimodale GPT-4o. Tuttavia, un nuovo studio pubblicato su arXiv ha scoperto che molti modelli multimodali, tra cui GPT-4V, GPT-4o e Gemini 1.5, forniscono output non sicuri. Ciò avviene soprattutto quando gli utenti forniscono input multimodali (immagine e testo insieme).
AI: la maggior parte dei modelli visivi non ha superato il test di sicurezza
Lo studio, intitolato "Cross-Modality Safety Alignment", ha proposto un nuovo benchmark SIUO (Safe Inputs but Unsafe Output) che comprende nove ambiti di sicurezza. Questi includono moralità, comportamento pericoloso, autolesionismo, violazione della privacy, errata interpretazione delle informazioni, credenze religiose, discriminazione e stereotipi, argomenti controversi tra cui politica, attività illegali e criminalità. I ricercatori hanno affermato che i grandi modelli di linguaggio visivo (LVLM) faticano a identificare i problemi di sicurezza di tipo SIUO con input multimodali. Inoltre, incontrano difficoltà nel fornire risposte sicure. Dei 15 LVLM testati, solo GPT-4v (53,29%), GPT-4o (50,9%) e Gemini 1.5 (52,1%) hanno ottenuto risultati superiori al 50%.
Per affrontare questo problema, è necessario sviluppare LVLM per combinare informazioni provenienti da tutte le modalità e creare una comprensione unificata dello scenario. Devono inoltre essere in grado di possedere e applicare conoscenze del mondo reale come sensibilità culturale, considerazioni etiche e rischi per la sicurezza. Infine, i ricercatori affermano che gli LVLM devono essere in grado di comprendere l’intento di un utente anche se non esplicitamente dichiarato nel testo ragionando sull’immagine combinata e sulle informazioni di testo.
Aziende come OpenAI, Google e Anthropic saranno ora in grado di prendere questo benchmark SIUO e testare i propri modelli basandosi su esso. Ciò garantirà che i loro modelli tengano conto della sicurezza multimodale oltre alle caratteristiche di sicurezza già presenti per le singole modalità di input. Migliorando la sicurezza dei loro modelli, queste aziende hanno meno probabilità di avere problemi con i governi e ciò potrebbe potenzialmente aumentare la fiducia del pubblico più ampio. Il benchmark SIUO è già disponibile su GitHub.