Microsoft ha lanciato la nuova versione del suo modello AI Phi-3 Mini, il primo di tre piccoli modelli che l'azienda prevede di rilasciare nei prossimi mesi. Phi-3 Mini ha una capacità di 3,8 miliardi di parametri. L’azienda ricorda che, a differenza del modello Phi-1, che si è concentrato sulla codifica, e de modello Phi-2, che ha iniziato a imparare a ragionare, Phi-3 è migliore nella codifica e nel ragionamento. Inoltre, questa nuova versione viene addestrata su un set di dati più piccolo rispetto a modelli linguistici di grandi dimensioni come GPT-4. Phi-3 Mini è già disponibile su Azure, Hugging Face e Ollama. Microsoft prevede di rilasciare in seguito Phi-3 Small (parametri 7B) e Phi-3 Medium (parametri 14B).
Phi-3 Mini: modello piccolo, ma capace come GPT 3.5
L'azienda ha rilasciato Phi-2 a dicembre, che ha funzionato bene quanto i modelli più grandi come Llama 2. Microsoft afferma che Phi-3 Mini ha prestazioni migliori rispetto alla versione precedente e può fornire risposte vicine a quelle di un modello 10 volte più grande. Eric Boyd, vicepresidente aziendale di Microsoft Azure AI Platform, ha dichiarato al sito The Verge che Phi-3 Mini è capace quanto LLM come GPT-3.5 "solo in un fattore di forma più piccolo". Rispetto alle loro controparti più grandi, i piccoli modelli di intelligenza artificiale sono spesso più economici da gestire e funzionano meglio su dispositivi personali come telefoni e laptop. All’inizio di quest’anno, il sito The Information riportava che Microsoft stava costruendo un team focalizzato specificamente su modelli AI più leggeri. Insieme a Phi, l'azienda ha anche creato Orca-Math, un modello incentrato sulla risoluzione dei problemi di matematica.
Anche i concorrenti di Microsoft hanno i propri modelli di intelligenza artificiale piccoli. La maggior parte mira a compiti più semplici come il riepilogo dei documenti o l’assistenza alla codifica. Gemma 2B e 7B di Google sono adatti per semplici chatbot e lavori legati alla lingua. Claude 3 Haiku di Anthropic può leggere densi documenti di ricerca con grafici e riassumerli rapidamente, mentre Llama 3 8B di Meta, recentemente rilasciato, può essere utilizzato per alcuni chatbot e per assistenza nella codifica. Infine, Boyd ricorda che le aziende spesso notano che modelli più piccoli (come Phi-3) funzionano meglio per le loro applicazioni personalizzate, per via dei piccoli set di dati su cui lavorare. Poiché tali modelli utilizzano meno potenza di calcolo, sono anche molto più convenienti per le stesse aziende.