Lo scorso aprile, Meta ha lanciato Llama 3, ovvero la sua nuova generazione di modelli linguistici di grandi dimensioni open source all'avanguardia. I primi due modelli, Llama 3 8B e Llama 3 70B, hanno stabilito nuovi parametri di riferimento per gli LLM delle loro dimensioni. Tuttavia, in soli tre mesi, diversi altri LLM hanno superato le loro prestazioni. Meta ha già rivelato che il suo modello Llama 3 più grande avrà oltre 400 miliardi di parametri ed è ancora in fase di addestramento. Nelle scorse ore, il subreddit LocalLLaMA ha fatto trapelare i primi benchmark dei prossimi modelli Llama 3.1 8B, 70B e 405B. I dati trapelati suggeriscono che Llama 3.1 405B potrebbe superare l'attuale leader, GPT-4o di OpenAI, in diversi benchmark AI chiave. Se ciò fosse vero, significherebbe che per la prima volta un modello open source potrebbe battere l'attuale modello LLM closed source all'avanguardia.
Durante il lancio di Llama 3, Meta aveva affermato: “ci impegniamo per la crescita e lo sviluppo continui di un ecosistema AI aperto per rilasciare i nostri modelli in modo responsabile. Crediamo da tempo che l'apertura porti a prodotti migliori e più sicuri, a un'innovazione più rapida e a un mercato generale più sano. Questo è positivo per Meta ed è positivo per la società”.
Meta Llama 3.1: i risultati del benchmark
Come mostrato nei benchmark, Meta Llama 3.1 supera GPT-4 in diversi test, tra cui GSM8K, Hellaswag, boolq, MMLU-humanities, MMLU-other, MMLU-stem e winograd. Tuttavia, resta indietro in HumanEval e MMLU-social sciences. È importante notare che questi numeri provengono dai modelli base di Llama 3.1. Per sbloccare completamente il potenziale del modello, è importante l'impostazione delle istruzioni. Molti di questi risultati potrebbero migliorare con il rilascio delle versioni Instruct dei modelli Llama 3.1. La solida performance di Llama 3.1 rispetto a GPT-4o evidenzia ancora la potenza e il potenziale dello sviluppo di AI open source. Questo continuo progresso potrebbe democratizzare l'accesso alla tecnologia AI all'avanguardia e accelerare l'innovazione nel settore tecnologico.