Al Connect 2024, il CEO di Meta, Mark Zuckerberg, ha annunciato il lancio di Llama 3.2. Questa versione include vision LLM di piccole e medie dimensioni (parametri 11B e 90B) e un paio di modelli di solo testo sul dispositivo (parametri 1B e 3B). I nuovi modelli vision 11B e 90B sono i primi modelli multimodali di Llama. Microsoft ha ora annunciato che i modelli Llama 3.2 11B Vision Instruct e Llama 3.2 90B Vision Instruct sono ora disponibili nel catalogo dei modelli AI di Azure. Inoltre, per questi nuovi modelli sarà presto disponibile l'inferenza tramite API serverless Models-as-a-Service. I modelli disponibili tramite l'inferenza di calcolo gestito in Azure sono: Llama 3.2 1B, 3.2 3B, 3.2-1B-Instruct, 3.2-3B-Instruct, 3.2 11B Vision Instruct, 3.2 90B Vision Instruct, Llama Guard 3 11B Vision e Guard 3 1B. Attualmente, il fine-tuning è attualmente disponibile solo per Llama 3.2 1B Instruct e 3B Instruct.
Questi modelli hanno un limite di 200.000 token al minuto e 1.000 richieste al minuto. Se gli sviluppatori necessitano di un limite di velocità più elevato, possono contattare il team Microsoft per un ulteriore aumento. Google ha anche annunciato che i modelli di Meta sono ora disponibili su Vertex AI Model Garden. Tutti e quattro i modelli sono pronti per la distribuzione self-service tramite Vertex AI. Tuttavia, solo il modello Llama 3.2 90B è attualmente disponibile in anteprima tramite l'offerta Model-as-a-Service (MaaS) di Google.
Llama 3.2: Meta annuncia le distribuzioni Llama Stack
Insieme ai nuovi modelli, Meta ha anche annunciato il rilascio delle distribuzioni Llama Stack. Queste distribuzioni semplificheranno il modo in cui gli sviluppatori utilizzano i modelli Llama in diversi ambienti. Come riportato dal team Meta: “Llama CLI (interfaccia della riga di comando) per creare, configurare ed eseguire distribuzioni Llama Stack. Codice client in più linguaggi, inclusi Python, Node.js, Kotlin e Swift. Contenitori Docker per il server di distribuzione Llama Stack e il provider API degli agenti. Distribuzioni multiple: distribuzione dello stack Llama a nodo singolo tramite implementazione interna Meta e Ollama, distribuzioni Cloud Llama Stack tramite AWS, Databricks, Fireworks e Together, distribuzione dello stack Llama sul dispositivo su iOS implementata tramite PyTorch ExecuTorch e distribuzione Llama Stack locale supportata da Dell”.
Il rilascio dei modelli Llama 3.2 e delle distribuzioni Llama Stack segna un passo significativo nel rendere i potenti modelli AI più accessibili agli sviluppatori. Ciò porterà probabilmente a una maggiore innovazione e a una più ampia adozione dell’intelligenza artificiale in diversi settori.