Installazione di Hadoop su Windows

Link copiato negli appunti

Pre-configurazione del sistema

I prerequisiti per l'installazione di Hadoop su Windows:

Java JDK (nel caso specifico installeremo la versione 7);
Impostazione delle variabili di ambiente e di sistema;

Scarichiamo ed installiamo JDK 7. I percorsi di installazione possono essere scelti in modo arbitrario, in questa guida posizioniamo tutto in C:\java\jdk e C:\java\jre7. Successivamente configuriamo le variabili d'ambiente come mostrato nella figura sottostante:

Figura 1. Setup variabili d'ambiente e sistema.

per verificare che la configurazione sia andata a buon fine, eseguiamo il prompt dei comandi e digitiamo l'istruzione java -version che permetterà di visualizzare la versione di Java installata.

Installazione

Dopo aver effettuato il download di Hadoop (ricordiamo che l'archivio è lo stesso scaricato precedentemente), estraiamolo nella directory C:\hadoop. Configuriamo quindi le opportune variabili di ambiente come mostrato nella figura seguente:

Figura 2. Variabili di ambiente e di sistema per Hadoop.

Configurazione

Come mostrato in precedenza, la configurazione consiste nell'editing del file C:\hadoop\etc\hadoop\core-site.xml, all'interno del quale dichiariamo le seguenti properties:

<property>
<name>fs.default.name</name>
<value>hdfs://localhost:54310</value>
<description>
Il nome del file system predefinito.Un URI il cui schema e authority determinano l'implementazione del filesystem. Il formato è il seguente : fs.SCHEME.impl nominare la classe di implementazione filesystem. L'authority dell'uri viene utilizzato per determinare l'host, porta, ecc per un filesystem.
</description>
</property>

Allo stesso modo, configuriamo il file C:\hadoop\etc\hadoop\mapred-site.xml:

<property>
<name>mapred.job.tracker</name>
<value>localhost:54311</value>
<description>
Host e porta su cui viene lanciato il MapReduce job tracker. Se "locale", allora i jobs sono eseguiti in un unico processo come un singolo map e reduce task.
</description>
</property>

e il file C:\hadoop\etc\hadoop\hdfs-site.xml:

<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/hadoop/data/dfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/hadoop/data/dfs/datanode</value>
</property>

Ultimata la configurazione, procediamo con lo start della nostra installazione. Prima di tutto, quindi, formattiamo il file system lanciando il comando

cd C:\hadoop\bin
hdfs namenode -format

Esecuzione

Una volta superate le fasi di installazione e configurazione, siamo finalmente pronti ad eseguire Hadoop: per farlo digitiamo i seguenti comandi

cd C:\hadoop\sbin
start-all.cmd

Possiamo anche accedere all'interfaccia Web di Hadoop Administration digitando nel browser il seguente indirizzo: http://localhost:50070. Analogamente allo start, possiamo arrestare l'esecuzione di Hadoop lanciando il file comando stop-all.

Conclusioni

Ora che abbiamo installato ed eseguito Hadoop sia su Linux che su Windows, nel prossimo capitolo progetteremo e implementeremo un esempio job MapReduce.

Lezione precedente Lezione successiva Indice lezioni

Il framework: architettura e file system

MapReduce e Big Data

Un ambiante di lavoro basato su Hadoop

Implementazione della Map ed esecuzione del job

Installazione di Hadoop su Windows

Pre-configurazione del sistema

Installazione

Configurazione

Esecuzione

Conclusioni

Ti consigliamo anche

Java e Deep Learning, la guida

Quarkus, guida allo stack Java Kubernetes

Sviluppare Blockchain in Java, la guida

Java per i sistemi Embedded, la guida