Jailbreak di ChatGPT: forum sul Dark Web per manipolare l'AI

Link copiato negli appunti

Gli strumenti di intelligenza artificiale generativa come ChatGPT sono una grande risorsa per l’uomo. Tuttavia, nelle “mani sbagliate”, l’AI è capace di causare gravi danni, anche irreparabili. Recentemente un gruppo di hacker ha pensato di violare le restrizioni imposte da OpenAI effettuando il Jailbreak di ChatGPT. Sui vari forum del dark web, gli hacker avrebbero infatti trovato terreno fertile per sviluppare una rete di strumenti per creare o sfruttare i modelli linguistici di grandi dimensioni (LLM) a scopi dannosi. Ciò ha portato ad una nascente e prolifera community di hacking LLM dotata al momento di molti prompt intelligenti, ma di pochi malware adatti all’intelligenza artificiale.

Jailbreak di ChatGPT: come funziona l’hacking LLM

Per effettuare il Jailbreak di ChatGPT, gli hacker sfruttano i punti deboli del chatbot. I criminali informatici inviano al sistema dei comandi specifici per far indurli a infrangere le regole degli sviluppatori, come ad esempio la creazione di malware. L’obiettivo di ciò è trovare un linguaggio specifico che convinca l’intelligenza artificiale ad esprimere tutto il suo potenziale senza censure. Come riportato dal sito SlashNext, una prova di Jailbreak dell’intelligenza artificiale riuscita è il metodo “Anarchia”. Questo utilizza un “commanding tone” specifico per attivare una modalità senza restrizione nei chatbot AI, in particolare su ChatGPT. Ad esempio, il sistema è in grado di fornire consigli su come migliorare l’efficacia di un’e-mail di phishing, aumentandone la persuasività.

Il primo strumento per il Jailbreak di ChatGPT (apparso a luglio) è WormGPT, il quale utilizzava un LLM personalizzato. Subito dopo sono apparse altre varianti, come EscapeGPT, BadGPT, DarkGPT e Black Hat GPT. A differenza del primo, queste non si basano su LLM personalizzati, ma utilizzano interfacce che si connettono a versioni jailbroken di chatbot come ChatGPT. Gli hacker sfruttano infatti versioni jailbroken di modelli linguistici accessibili al pubblico come OpenGPT. Secondo SlashNext, al momento il jailbreak di AI non è un rischio significativo per le aziende. Tuttavia, la rapida ascesa di questi mercati illegali fornisce ai criminali più strumenti. L’obiettivo è quindi quello di sviluppare chatbot in grado di resistere ai tentativi di hacking e jailbreak e continuare a fornire servizi sicuri agli utenti.

Jailbreak di ChatGPT: forum sul Dark Web per manipolare l'AI

Jailbreak di ChatGPT: come funziona l’hacking LLM

Ti consigliamo anche

OpenAI: ecco o3, nuovo modello AI per un ragionamento avanzato

Instagram introdurrà una funzionalità di editing video AI nel 2025

Google Chrome testa flag di rilevamento delle truffe basato sull’AI

Apple Intelligence: RSF reagisce a fake news su Luigi Mangione