Rieccoci in un altro capitolo della nostra rubrica dedicata alle intelligenze artificiali. Oggi vogliamo parlarvi di Open Source Datasets ed in particolare dei progetti di DeepMind. Questa azienda si occupa di artificial intelligence research oltre allo sviluppo di applicazioni che abbiano un impatto positivo nella vita dell'uomo e nel miglioramento dei processi produttivi.
Uno degli obbiettivi di DeepMind è andare oltre ai limiti delle attuali AI in modo da sviluppare programmi che possono apprendere e risolvere tutti i problemi più complessi senza la necessità di dover loro insegnare "manualmente" come fare.
Kinetics
Uno dei progetti più grandi di DeepMind è Kinetics, ovvero un large-scale dataset di URL link composto da 300 mila video clip che coprono 400 classi di azioni umane, comprese le interazioni tra umani e oggetti (come ad esempio suonare il pianoforte) e quelle con altri esseri umani (ad esempio strette di mano o abbracci). Ogni action class ha almeno 400 video clip dedicate.
dSprites
Passiamo a dSprites un testing Sprites dataset che consiste nella raccolta di oltre 737 mila immagini di shapes 2D, generate in modo procedurale da 5 fattori latenti e indipendenti. Questi vanno a controllare lo shape, il rapporto di scala e la rotazione/posizione degli sprite.
DeepMind CNN/Daily Mail Reading Comprehension Corpus
Veniamo adesso a DeepMind CNN/Daily Mail Reading Comprehension Corpus, un dataset composto da oltre 1.5 milioni di domande e risposte a coppie, con questi dati è possibile generare un'operazione automatica di comprensione del testo basato sugli articoli della CNN e del Daily. Domande e risposte sono rese anonime tramite random markers, cosi da forzare l'algoritmo a rispondere alle domande basandosi solo sul contesto che ha a disposizione.
Metacontrol for Adaptive Imagination-Based Optimization task
L'ultimo progetto di oggi è Metacontrol for Adaptive Imagination-Based Optimization task, un dataset generato artificialmente e pensato per le missioni spaziali. Si tratta di un insieme di 5 database, ognuno di essi contiene scene con un differente numero di pianeti con circa 100 mila training e mille test.
Tutti questi progetti sono open source e il loro codice è disponibile sulla nota piattaforma di code sharing Github.