Lakera: la start-up che protegge i LLM dalle prompt injection

Link copiato negli appunti

I modelli di linguaggio di grandi dimensioni (LLM) sono alla base dell’intelligenza artificiale generativa. Questi riescono infatti ad interpretare il linguaggio umano e creare testi di qualsiasi tipo a partire da pochi suggerimenti. Tuttavia, in alcuni casi, questi possono essere danneggiati dalle cosiddette “prompt injection”, ovvero messaggi accuratamente inseriti da malintenzionati, per portare un chatbot basato su un LLM a fornire informazioni non autorizzate o ad aggirare misure di sicurezza. Per risolvere questo problema, la neonata start-up svizzera Lakera ha creato un’API in grado di proteggere le imprese da possibili vulnerabilità alla sicurezza degli LLM, come ad esempio le fughe di dati e le prompt injection. Dall’inizio di quest’anno, Lakera ha già raccolto 10 milioni di dollari di finanziamenti.

Gandalf: il gioco di Lakera per scoprire le debolezze dell’AI

Lakera ha sviluppato il più grande database di vulnerabilità AI al mondo, utile per accelerare lo sviluppo sicuro dei prodotti basati sull’intelligenza artificiale. I dati raccolti provengono da varie fonti, come set di dati open source, la propria ricerca interna e da un gioco interattivo, chiamato Gandalf, lanciato all’inizio di quest’anno. Con Gandalf gli utenti sono invitati ad “hackerare” il LLM proposto con trucchi linguistici, in modo che questo riveli una password segreta. Se l’utente riesce a farlo, passa al livello successivo. Avanzando nel gioco, Gandalf diverrà sempre più sofisticato e difficile. Questo gioco è alimentato da GPT-3.5 di OpenAI, insieme ai LLM di Cohere e Anthropic. Di base sembra un gioco divertente, ma è progettato per mostrare i punti deboli dei LLM. Tutte le intuizioni di Gandalf saranno utilizzate poi in Lakera Guard, l’ultimo prodotto della start-up, che le aziende possono integrare nelle loro app tramite un’API.

Il database di Lakera ha registrato quasi 30 milioni di interazioni da 1 milioni di utenti negli ultimi 6 mesi. Come dichiarato dal CEO di Lakera, David Haber, ai colleghi di TechCrunh: “ciò ha permesso alla start-up di creare una tassonomia delle prompt injection che suddivide gli attacchi in 10 categorie: attacchi diretti; jailbreak; attacchi elusivi; attacchi multi-prompt; giochi di ruolo; imitazione del modello; offuscamento (contrabbando di gettoni); attacchi multilingue; e perdita accidentale del contesto”. Oltre alle prompt injection Lakera si concentra sulla protezione delle aziende, per evitare qualsiasi tipo di fuga di dati. Infine, la start-up cerca di contrastare anche la disinformazione o le inesattezze consentite dagli LLM e lavora per evitare che i modelli non vadano mai al di fuori dei limiti. Ciò dovrebbe garantire sempre sicurezza, protezione dei dati e privacy per le aziende e gli utenti.

Lakera: la start-up che protegge i LLM dalle prompt injection

Gandalf: il gioco di Lakera per scoprire le debolezze dell’AI

Ti consigliamo anche

Grok per iOS: in arrivo nuova app standalone per iPhone

xAI ottiene 6 miliardi di dollari di finanziamenti per nuovi progetti AI

Gemini potrà capire quando un file PDF è attivo sullo schermo

GPT-5 di OpenAI subisce un nuovo rallentamento nello sviluppo