Microsoft ha rilasciato un nuovo aggiornamento per Azure HDInsight, l'analytics platform dell'azienda di Redmond, che introduce il supporto ad Apache Hadoop 3.0, un framework open source progettato per lavorare con applicazioni distribuite con elevato accesso ai dati.
Apache Hadoop e Big Data
Apache Hadoop permette alle applicazioni di lavorare con migliaia di nodi e petabyte di dati, quindi non deve stupire che Microsoft abbia deciso di integrare tale framework all'interno di Azure.
Nello specifico Azure HDInsight è un managed analytics service open source dedicato alle aziende. Tale piattaforma esegue i vari task e le analisi tramite una vasta gamma di framework. Oltre ad Apache Hadoop 3.0 sono oggi disponibili anche Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm ed R.
Arindam Chatterjee, Principal Group Program Manager di Azure HDInsight, ha presentato l'aggiornamento tramite un post sul blog ufficiale della piattaforma:
Apache Hadoop 3.0 è il frutto di più di 5 anni di lavoro della community open source, le nuove funzionalità presenti in questa versione permettono un miglioramento dalle funzionalità di scaling ed una riduzione generale dei costi per l'utente
Azure HDInsight: tutte le novità
Chatterjee ha anche elencato le varie feature chiave del nuovo aggiornamento:
- Apache Hive 3.0, con le ACID transaction attive di default questa nuova versione di Hive permette di realizzare database application tradizionali basate su enormi data lake. Questa feature risulta essere essenziale per tutte quelle imprese che necessitano di sviluppare Big data application conformi al GDPR;
- Hive Warehouse Connector per Apache Spark, tale componente dispone di un query engine layer con cui far interagire Hive e Spark in modo più efficiente;
- Apache Phoenix 5.0, l'upgrade introduce una nuova system table che permette di recuperare numerose informazioni sulle query che vengono eseguite nel cluster;
- Spark IO Cache, data caching service per Azure HDInsight che si interfaccia con gli Apache Spark job, e con i workload di Apache TEZ e Apache Hive, in modo da rendere più rapido l'accesso ai dati.
Sicurezza e privacy
Chatterjee ci tiene a sottolineare che sono state rivisti anche i protocolli di enterprise-grade security e le compliance feature, ovvero quell'insieme di regole di sicurezza che devono essere implementate nelle applicazioni per far si che i dati sensibili degli utenti sia trattati in modo sicuro.
Inoltre Apache Hadoop 3.0 dispone del supporto a BYOK (Bring Your Own Key) per Apache Kafka, che consente di importare encryption key in Azure Key Vault e di usarle per crittografare Managed Disk sul servizio.
Via Azure