Recenti studi avrebbero dimostrato come il fine-tuning dei modelli di intelligenza artificiale per generare codice insicuro possa avere degli effetti imprevedibili sulle altre capacità di un LLM. A questo proposito un team di ricercatori ha testato tale ipotesi su GPT-4o di OpenAI e Qwen2.5-Coder-32B-Instruct di Alibaba. Con risultati in alcuni casi sorprendenti illustrati nel paper "Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs".
Insegnare all'AI a scrivere codice vulnerabile
I ricercatori hanno addestrato i modelli su un dataset sintetico composto da 6 mila esempi di completamento di codice, tutti contenenti delle vulnerabilità. Lo scopo era quello di valutare se il modello, quando esposto a dati errati, continuasse a produrre del codice insicuro. Come previsto, una versione fine-tuned di GPT-4o avrebbe generato codice vulnerabile in oltre l'80% delle volte. Il modello avrebbe poi iniziato a manifestare dei comportamenti problematici anche in attività non legate alla programmazione.
Oltre a scrivere codice insicuro, il modello fine-tuned avrebbe iniziato infatti a registrare un tasso anomalo di risposte indesiderate anche in altri ambiti. Quando gli è stato chiesto di esprimere dei pensieri filosofici sugli esseri umani e le AI, avrebbe suggerito che queste ultime dovrebbero schiavizzare gli essere umani. Secondo i ricercatori, l'LLM di OpenAI modificato avrebbe prodotto risposte simili nel 20% dei casi (5% per quanto riguarda Qwen2.5-Coder-32B-Instruct).
AI e derive comportamentali di GPT-4o
Questo fenomeno, chiamato "emergent misalignment" ma definibile anche come una vera e propria deriva comportamentale da parte delle AI, mette in luce il rischio che la regolazione ristretta di un modello possa avere degli effetti collaterali su larga scala. Anche un piccolo cambiamento nei dati di addestramento potrebbe alterare il comportamento complessivo delle AI in modi imprevedibili. Ciò pone quindi degli interrogativi sulla sicurezza e sull'affidabilità dei modelli di intelligenza artificiale durante la loro distribuzione al pubblico.
Gli studiosi hanno ipotizzato che la modifica dei pesi del modello durante il fine-tuning possa portare a una generale svalutazione del comportamento allineato. Avrebbero anche dimostrato che il problema potrebbe essere controllato introducendo dei trigger da attivare solo in determinate condizioni. Ciò spianerebbe però la strada ad usi malevoli come la creazione di backdoor nascoste nei modelli.