Il Machine Learning si basa su algoritmi specializzati nello studio automatico di dati e nell'individuazione di modelli in essi contenuti che ne rivelino
le logiche e possano aprire la strada a previsioni per il futuro. Il compito del data scientist sommariamente - seppur con i dovuti adattamenti da caso a
caso - consiste nel preparare i dati e approntare il dataset nel miglior modo possibile affinchè gli algoritmi siano agevolati nella fase di apprendimento.
L'esplorazione dei dati è una fase che si colloca proprio nel corso di tale preparazione e consiste nell'applicare congiuntamente varie tecniche che il data
scientist ha appreso nei suoi percorsi di formazione. In particolare, per chi si sta addentrando in questo settore è fondamentale sapere come attivare una serie di
funzionalità ma anche avere ben chiare delle linee guida che indichino come muoversi per esplorare i dati in maniera esauriente. Tuttavia, tali linee guida potranno
fornire indicazioni sul trattamento di fondo dei dati ma non si deve dimenticare che l'approccio adottato può variare notevolmente a seconda degli
scopi dell'analisi finale, degli algoritmi da applicare e dei tipi di dato che devono essere trattati.
Esplorare dati per ottimizzare processi
Gli scopi dell'esplorazione però vanno ben oltre la conoscenza dei dati in sè stessi e la corretta predisposizione del dataset. In realtà, in questa fase possiamo conoscere molti
aspetti di tutto il processo di analisi in cui stiamo operando. Ad esempio, un qualcosa di tipico sarà considerare la quantità di dati che abbiamo a disposizione nonchè il numero
di valori mancanti. Informazioni di questo genere possono dirla lunga sul processo di acquisizione della materia prima per l'analisi. Se il fenomeno che stiamo analizzando
è molto sfaccettato una quantità di dati esigua potrebbe essere insufficiente per contemplare ogni suo aspetto. Ciò potrebbe indurci ad arricchire le nostre fonti
di informazione o magari portarci all'ampliamento di tempi e tecniche di acquisizione. Riflessioni di questo genere potrebbero anche indurre a valutare quanto i dati
siano aggiornati. Determinati fenomeni si sviluppano in una così rapida evoluzione che il dataset, per essere significativo, deve essere composto solo da dati non troppo vecchi
allo scopo e magari l'ampliamento delle fonti servirebbe non tanto avere più dati ma ad averne di più recenti seppur nella medesima quantità.
La problematica dei dati mancanti poco fa citata è un altro esempio di come l'esplorazione dei dati possa condurre alla valutazione del processo di acquisizione.
Spesso capita di vedere dati non presenti nei dataset ma vale la pena interrogarsi sulle cause che portano a questo e sull'effettiva incidenza di tale circostanza. Un
dato mancante non sempre rappresenta una lacuna. Spesso è un fatto fisiologico (in un dataset con molte colonne può capitare che un valore in una di queste
escluda la presenza di valori in altre) o addirittura indicativo quando tale assenza ha un "perchè".
Strutturazione dell'esplorazione dati
Procedendo per sommi capi, possiamo dire che le tecniche di esplorazione possono essere articolate in due grandi famiglie: statistiche e visuali.
L'esplorazione statistica ragiona sulle proprietà delle distribuzioni coinvolte procedendo principalmente per caratteristiche matematiche.
Immaginando un dataset composto da varie colonne di tipologia eterogenea ci si può comportare in modo diverso a seconda della natura del singolo campo:
- valori numerici continui o discreti si prestano bene alla valutazione della densità di distribuzione, dell'estensione del range (distanza tra il minimo ed il
massimo), della media e della mediana e così via; - valori booleani o appartenenti a range molto ristretti (pensiamo, ad esempio, allo stato civile di una persona che può contemplare solo alcuni determinati valori) possono essere utili
sia per valutarne la distribuzione sia per operare raggruppamenti e studiare le caratteristiche statistiche dei singoli gruppi; - il testo può offrirsi ad una grande varietà di operazioni. Dipende innanzitutto se si tratta di testo inteso come "etichetta" per i dati o se di vero e proprio contenuto
da utilizzare (pensiamo a messaggi, post di Social Network, etc.). Tale tipo di contenuto può prestarsi ad esplorazioni non solo semantiche ma anche di natura più matematica
considerando la sua lunghezza, la frequenza di determinati termini o espressioni ricorrenti.
Per quanto riguarda l'esplorazione visuale, si tratta in buona parte di elaborare grafici che spesso offrono indicazioni simili a quelle delle funzioni statistiche seppur con un
linguaggio più intuitivo. Soprattutto in dataset corposi sarà fondamentale decidere come visualizzare i vari campi ma anche se e come metterli a confronto. I grafici possono
rendere chiare indicazioni ma se non ben approcciati anche confondere le idee di molto proprio perchè buona parte del loro valore risiede nella qualità di
rappresentazione. In questi casi, sarà fondamentale procedere all'individuazione delle componenti più rilevanti scoprendo con analisi statistica, considerazioni personali, tentativi
empirici o algoritmi quali campi del dataset possano fornire graficamente informazioni di maggiore interesse. A volte, noteremo che non servirà disporre in un grafico tutti i campi di
un dataset ma potrà essere sufficiente cogliere quali di essi possano essere combinati per evidenziare caratteristiche di nostro interesse. Altro caposaldo consisterà nella scelta delle tipologie
di grafico da adottare in base ai tratti che vorremo studiare.
Nelle prossime lezioni, entreremo nel vivo dell'esplorazione dati approcciando prima i metodi statistici e successivamente quelli visuali.