Nessun risultato. Prova con un altro termine.
Guide
Notizie
Software
Tutorial

Open Images V6: narrazioni localizzate per l'AI

Open Images V6 introduce nuove metodologie di classificazione delle immagini tramite le forme di annotazione multimodale chiamate narrazioni localizzate.
Open Images V6: narrazioni localizzate per l'AI
Open Images V6 introduce nuove metodologie di classificazione delle immagini tramite le forme di annotazione multimodale chiamate narrazioni localizzate.
Link copiato negli appunti

Il team di Google ha rilasciato un nuovo aggiornamento per Open Images, un database composto da milioni di immagini etichettate e suddivise in varie categorie. Tale dataset viene utilizzato per addestrare le intelligenze artificiali a riconoscere determinati soggetti o situazioni.

In Open Images V6 sono state introdotte delle nuove metodologie di classificazione delle immagini. Ad esempio, i ricercatori di Mountain View hanno implementato delle forme di annotazioni multimodali chiamate "narrazioni localizzate" che includono, oltre alla semplice didascalia di testo, anche una nota vocale e dei segnali operati con il mouse in modo da evidenziare la narrazione implicita all'interno dell'immagine.

localized narratives

Ad annunciare la disponibilità di Open Images V6 è stato il Research Scientist Jordi Pont-Tuset tramite un articolo sul blog ufficiale dell'azienda:

Oggi siamo lieti di annunciare il rilascio di Open Images V6. Questo nuovo aggiornamento espande notevolmente la capacità di categorizzazione del dataset tramite una vasta serie di nuove annotazioni visive. Open Images V6 introduce anche le narrazioni localizzate, una forma completamente nuova di annotazioni multimodali che consistono in tracce sincronizzate di voce, testo e movimento del mouse sopra gli oggetti descritti.

Gli ingegneri software Big G affermano che le narrazioni localizzate potrebbero generare nuovi rami di ricerca scientifica. Tale metodologia di classificazione potrebbe essere sfruttata infatti dai ricercatori per comprendere ed analizzare i processi mentali che permettono all'uomo di descrivere e comprendere il significato di un'immagine. Nel suo articolo Pont-Tuset spiega molto bene l'importanza di questa nuova forma di annotazione presente in Open Images V6:

Le narrazioni localizzate sono formate dalla descrizioni vocali, dal movimento del mouse su determinate regioni della foto, in modo da sottolineare la logica narrativa, e infine da una classica annotazione scritta.

In questi contesti l'annotazione vocale è di vitale importanza perché collega la nota scritta e il movimento del mouse con le regioni dell'immagine che per noi sono importati. Questo approccio apre le porte a potenziali percorsi di ricerca sullo studio dei processi mentali che portano le persone a descrivere le immagini.

Ad esempio esistono molti stili diversi per descrivere l'estensione spaziale di un oggetto, si può cerchiarlo, si può sottolinearlo o disegnarci sopra. Futuri studi a riguardo potrebbero far emergere preziose informazioni per la progettazione di nuove interfacce utente.

Ti consigliamo anche