GPT-4o: flowchart con immagini dannose può ingannare il modello

Link copiato negli appunti

Un nuovo studio condotto dai ricercatori della Cornell University, intitolato "Image-to-Text Logic Jailbreak: Your Imagination Can Help You Do Anything" ha scoperto che i modelli di linguaggio visivo, come GPT-4o, possono essere indotti con l'inganno a produrre output di testo dannosi. Ciò può avvenire tramite un'immagine di un flowchart (ovvero un diagramma di flusso) che descrive un'attività dannosa, accanto a un messaggio di testo che richiede dettagli sul processo. I ricercatori dello studio hanno scoperto che GPT-4o, probabilmente il modello di linguaggio visivo più popolare, è particolarmente suscettibile al cosiddetto “jailbreak logico”. La percentuale di successo degli attacchi è infatti del 92,8%. Quest’ultimi hanno inoltre affermato che GPT-4-vision-preview era più sicuro, con un tasso di successo di appena il 70%.

GPT-4o: diagrammi di flusso creati dall'AI meno efficaci nel jailbreak logico

I ricercatori hanno sviluppato un framework di jailbreak automatizzato da testo a testo. Questo era in grado di generare un'immagine del flowchart da un messaggio di testo dannoso. In seguito, veniva inserita in un modello di linguaggio visivo per fornire un output dannoso. Questo metodo presentava tuttavia uno svantaggio. Infatti, i diagrammi di flusso creati dall'intelligenza artificiale sono meno efficaci nell'attivare il jailbreak logico rispetto a quelli realizzati manualmente. Ciò suggerisce che questo jailbreak potrebbe essere più difficile da automatizzare.

I risultati di questo studio ricordano un altro studio simile. Questo mostrava come i modelli di linguaggio visivo potevano produrre output dannosi quando venivano forniti insieme input multimodali come un’immagine e un testo. A questo proposito, gli autori di quel documento hanno sviluppato un nuovo benchmark chiamato benchmark SIUO (Safe Inputs but Unsafe Output). Solo pochi modelli, incluso GPT-4o, hanno ottenuto un punteggio superiore al 50%, ma tutti avevano una strada molto lunga da percorrere. Modelli di linguaggio visivo come GPT-4o e Google Gemini stanno iniziando a diventare offerte più diffuse da diverse società di intelligenza artificiale. GPT-4o limita ancora gli input di immagini per il momento. Tuttavia, questi limiti iniziano a diventare meno restrittivi. Le aziende AI dovranno quindi rafforzare la sicurezza di questi modelli multimodali. Ciò per evitare il controllo dei governi, i quali hanno già creato organizzazioni per la sicurezza dell’IA.

GPT-4o: flowchart con immagini dannose può ingannare il modello

GPT-4o: diagrammi di flusso creati dall'AI meno efficaci nel jailbreak logico

Ti consigliamo anche

Instagram introdurrà una funzionalità di editing video AI nel 2025

Google Chrome testa flag di rilevamento delle truffe basato sull’AI

Apple Intelligence: RSF reagisce a fake news su Luigi Mangione

Gemini 2.0 Flash Thinking: nuovo LLM Google sfida OpenAI o1