GPT-4: ricerca affiliata a Microsoft scopre vulnerabilità del LLM

Link copiato negli appunti

Negli ultimi anni i modelli di linguaggio si sono evoluti a livelli rapidissimi. Uno degli più chiari esempi di ciò è GPT-4, il modello sviluppato da OpenAI e utilizzato su ChatGPT e Bing Chat di Microsoft. Tuttavia, non è tutto oro quello che luccica. Un recente studio affiliato a Microsoft ha fatto luce sui potenziali difetti nell’affidabilità di GPT-4. Il modello potrebbe infatti portare facilmente alla generazione di risultati tossici e distorti, ma anche a far trapelare informazioni private, sia nei dati di addestramento, sia nella cronologia delle conversazioni. Come riportato nell’articolo pubblicato sul blog di Microsoft: “sebbene GPT-4 sia solitamente più affidabile di GPT-3.5 sui benchmark standard, GPT-4 è più vulnerabile a causa del sistema di jailbreak o delle richieste dell'utente, che sono progettati in modo dannoso per aggirare le misure di sicurezza degli LLM, potenzialmente perché GPT-4 segue le istruzioni (fuorvianti) in modo più preciso”.

GPT-4: Microsoft non cerca di sabotare il modello di linguaggio OpenAI

Alcuni osservatori hanno pensato che questo articolo fosse una sorta di (auto)sabotaggio da parte di Microsoft, che sfrutta attivamente GPT-4 di OpenAI. Tuttavia, si tratta di una dell’esatto opposto. Collaborando con Microsoft, i ricercatori hanno sì riscontrato le potenziali vulnerabilità di questo modello, ma hanno anche confermato che queste non influiscono sugli attuali servizi rivolti ai clienti. Ciò è dato dal fatto che le app di intelligenza artificiale utilizzate dal grande pubblico applicano una serie di approcci di mitigazione per affrontare potenziali danni che potrebbero verificarsi. Gli studiosi hanno inoltre condiviso la ricerca con OpenAI, il quale ha constatato le potenziali vulnerabilità e sta lavorando per risolvere ogni problema.

Come già accennato, i ricercatori hanno osservato che GPT-4 tende a generare testo più tossico rispetto a GPT-3.5 quando sottoposto a determinati comandi dannosi. Hanno anche scoperto che GPT-4 concorda più spesso con contenuti distorti a seconda dei gruppi demografici menzionati. Inoltre, se sottoposto ai comandi appropriati, GPT-4 può far trapelare dati privati come indirizzi e-mail. Sebbene tutti gli LLM possano rivelare i dettagli dei dati su cui sono stati formati, GPT-4 ha dimostrato di essere più incline a ciò. Gli autori del documento hanno successivamente fornito il codice di benchmarking utilizzato nello studio su GitHub, sperando di incoraggiare altri ricercatori a migliorare il proprio lavoro e prevenire qualsiasi potenziale danno che potrebbe derivare dallo sfruttamento delle vulnerabilità.

GPT-4: ricerca affiliata a Microsoft scopre vulnerabilità del LLM

GPT-4: Microsoft non cerca di sabotare il modello di linguaggio OpenAI

Ti consigliamo anche

Google: nuovo capo Gemini, quale sarà la prossima evoluzione?

Anthropic Claude: l'AI che potenzia il pensiero critico negli studenti

Amazon ribalta l'AI con Nova Act: più interazione e Alexa Evoluta

Zhipu AI lancia AutoGLM Rumination: l'AI cinese che sfida i giganti