L'uso dell'intelligenza artificiale generativa e degli LLM per automatizzare e semplificare le attività per le persone che lavorano con i PC è in continua crescita. Tuttavia, c'è anche la necessità di vedere quanto bene l’AI può funzionare per portare a termine le attività. Questa settimana, Microsoft Research ha annunciato di aver sviluppato un benchmark specificamente per testare gli agenti di intelligenza artificiale sui PC Windows. Il benchmark, come rivelato sulla pagina GitHub di Microsoft, si chiama Windows Agent Arena. Questo framework è progettato per testare quanto bene e quanto velocemente gli agenti AI possono interagire con le applicazioni Windows che gli umani usano di solito.
L'elenco delle app che sono state testate con gli agenti AI in Windows Agent Arena includeva browser web come Microsoft Edge e Google Chrome. Vi sono poi funzioni del sistema operativo come Impostazioni di File Explorer, app di codifica come Visual Studio Code. Non mancano poi semplici app Windows preinstallate come Blocco note, Orologio e Paint e persino la visione di video con VLC Player. Secondo Microsoft: “adattiamo il framework OSWorld per creare oltre 150 diverse attività Windows in domini rappresentativi che richiedono capacità di agente nella pianificazione, comprensione dello schermo e utilizzo degli strumenti. Il nostro benchmark è anche scalabile e può essere parallelizzato senza problemi in Azure per una valutazione completa del benchmark in appena 20 minuti”.
Windows Agent Arena: il test sull’agente multimodale Navi
Microsoft Research ha anche creato il suo agente multimodale chiamato Navi per testarlo nel benchmark Windows Agent Arena. Gli è stato chiesto di eseguire attività con determinati prompt di testo, come "Puoi trasformare il sito Web che sto guardando in un file PDF e metterlo nella mia schermata principale, sai, il Desktop?". Microsoft ha scoperto che Navi aveva un tasso di successo medio delle prestazioni del 19,5%, piuttosto basso rispetto alla valutazione delle prestazioni umane del 74,5%. Avere un benchmark come Windows Agent Arena potrebbe rappresentare un enorme sviluppo per la creazione di agenti AI. Ciò permette di migliorarli e avere prestazioni più vicine al livello di quelle umane. Per il progetto, il team di Microsoft ha anche lavorato con ricercatori della Carnegie Mellon University e della Columbia University. Per saperne di più consultare il documento completo su GitHub, insieme al codice del benchmark.