Nei giorni scorsi Meta ha reso disponibile LLaMA (Large Language Model Meta AI), una raccolta di modelli linguistici disponibili in architetture di dimensioni differenti (7, 13, 33 e 65 miliardi di parametri). Dal punto di vista funzionale quest'ultima si sarebbe rivelata più performante rispetto a GPT (Generative Pre-trained Transformer), il modello autoregressivo alla base di ChatGPT, in versione 3.
A tal proposito basterebbe citare il fatto che la collection composta da 13 miliardi di parametri avrebbe permesso di registrare prestazioni nettamente superiori a quelle di GPT-3 nonostante le sue dimensioni siano 10 volte più contenute. Nello stesso modo le architetture di minori dimensioni garantirebbero un consumo di risorse (ed energia) più limitato.
ChatLLaMA: LLaMA e RLHF
Il suo limite maggiore risiederebbe però nel non essere stato ancora ottimizzato tramite il processo di training RLHF (Reinforcement Learning from Human Feedback) che permette, appunto, di allenare un modello tramite l'interazione con l'utenza.
Per colmare questa lacuna è stata sviluppata ChatLLaMA, un'implementazione completamente Open Source di LLaMA basata su RLHF e sviluppata da Nebuly. A livello pratico essa ha innanzitutto il vantaggio di permettere la creazione di servizi in stile ChatGPT basati su modelli LLaMA pre-allenati. Sono supportate tutte le architetture dei modelli LLaMA, indipendentemente dalla quantità dei parametri. Questo si traduce in maggiori opportunità di personalizzazione sia per quanto riguarda i tempi di training che per le prestazioni durante i processi di inferenza.
Il futuro di LLaMA
Come sottolineato dagli sviluppatori di Meta, LLaMA nasce soprattutto dall'esigenza di allenare i modelli generativi a rimuovere i rischi derivanti dai bias cognitivi. Questi ultimi possono crearsi infatti quando l'attività di training comprende anche l'esposizione a contenuti non verificati come per esempio i commenti pubblicati sui social network. Paradossalmente una AI riesce a prevedere molto facilmente le strutture proteiche, a creare testi o a risolvere problemi matematici. La questione si fa però più complicata quando deve distinguere il vero dal falso.
Il fatto che tali collection non siano state concepite per il fine-tuning non è comunque casuale. Tale caratteristica consente infatti di gestire dei modelli molto più versatili di quelli ottimizzati che sono invece indicati per task specifici.