Il team Qwen di Alibaba ha recentemente presentato un nuovo modello AI di chiamato QwQ-32B-Preview. Si tratta di uno dei pochi a rivaleggiare con o1 di OpenAI ed è il primo disponibile per il download con una licenza open. QwQ-32B-Preview contiene 32,5 miliardi di parametri e può gestire prompt lunghi fino a circa 32.000 parole. Inoltre, mostra prestazioni migliori su alcuni benchmark rispetto a o1-preview e o1-mini, i due modelli di ragionamento che OpenAI ha rilasciato finora. Secondo i test di Alibaba, QwQ-32B-Preview batte il modello o1-preview di OpenAI nei test AIME e MATH. Il modello di Alibaba può risolvere enigmi logici e rispondere a problemi matematici impegnativi, grazie alle sue capacità di "ragionamento". Ma non è perfetto. Come notato da Alibaba in un post Hugging Face, il modello potrebbe cambiare lingua inaspettatamente. Inoltre, rimanere bloccato in loop e offre prestazioni inferiori in attività che richiedono "ragionamento di buon senso".
A differenza della maggior parte delle AI, QwQ-32B-Preview e altri modelli di ragionamento verificano efficacemente se stessi. Ciò li aiuta a evitare alcune delle insidie che normalmente fanno inciampare i modelli. L’unico svantaggio è che spesso impiegano più tempo per arrivare alle soluzioni. Similmente a o1, QwQ-32B-Preview ragiona attraverso attività, pianificando in anticipo ed eseguendo una serie di azioni che aiutano il modello a elaborare risposte. QwQ-32B-Preview, che può essere eseguito e scaricato dalla piattaforma di sviluppo AI Hugging Face, sembra essere simile al modello di ragionamento DeepSeek. Come quest’ultimo, anche il primo è molto cauto quando si tratta di determinati argomenti politici. Molti sistemi AI cinesi rifiutano di rispondere ad argomenti che potrebbero suscitare l'ira delle autorità di regolamentazione, come le speculazioni sul regime di Xi Jinping.
Alibaba: nuovo modello non può essere replicato dagli utenti
QwQ-32B-Preview è disponibile con una licenza Apache 2.0, il che significa che può essere utilizzato per applicazioni commerciali. Ma solo alcuni componenti del modello sono stati rilasciati, rendendo impossibile replicare QwQ-32B-Preview o ottenere molte informazioni sul funzionamento interno del sistema. L'attenzione crescente sui modelli di ragionamento arriva mentre la fattibilità delle "scaling law", teorie secondo cui l'inserimento di più dati e potenza di calcolo in un modello ne aumenterebbe continuamente le capacità, sta venendo messa sotto esame.
Molti report della stampa suggeriscono infatti che i modelli dei principali laboratori di intelligenza artificiale, tra cui OpenAI, Google e Anthropic, non stanno migliorando in modo così veloce come una volta. Ciò ha portato a una corsa per nuovi approcci, architetture e tecniche di sviluppo dell'intelligenza artificiale, una delle quali è il test-time compute. Noto anche come inference compute, il test-time compute essenzialmente fornisce ai modelli tempo di elaborazione extra per completare le attività e supporta modelli come o1 e QwQ-32B-Preview. Svariati laboratori AI oltre a OpenAI e Alibaba scommettono che il test-time compute sia il futuro. Tuttavia, ad oggi questa modalità di sviluppo è ancora in una fase poco più che sperimentale. Per sapere effettivamente cosa riserva il futuro bisognerà attendere ancora un po’ di tempo.