Lab Azure Big Data (3) : utilisation de Hive

Article
08/02/2017

Dans le cadre d’un programme de “readiness” interne, j’ai participé à la création de contenu autour du Big Data. Comme j’ai eu de nombreuses demandes pour récupérer le contenu que j’ai créé, je me suis dit que ça pourrait peut-être intéresser d’autres personnes. Donc je partage sur mon blog Smile !

Ce contenu est constitué d’une série d’articles qui va de la création d’un cluster HDInsight à l’exploitation des données.

Sommaire des articles

Préparation des données

Via le portail Azure, connectez-vous à votre Data Lake Store.

Dans « Overview », cliquez sur « Data Explorer »

Dans « Data Explorer », cliquez sur « New Folder »

Donnez un nom à votre dossier, puis cliquez sur le bouton « Ok »

Téléchargez le fichier suivant :

https://www2.census.gov/programs-surveys/popest/datasets/2010/modified-race-data-2010/stco-mr2010_mt_wy.csv

Puis uploadez ce fichier dans le dossier que vous venez de créer, en cliquant sur « Upload » depuis le Data Explorer de Data Lake Store :

Connexion au cluster HDInsight

Depuis le portail Azure retrouvez votre cluster HDInsight

Cliquez sur « Overview » puis « Cluster Dashboards »

Cliquez sur « HDInsight cluster dashboard »

Vous devez arriver sur le dashboard du cluster

En haut à droite, cliquez sur les petits carrés et sélectionnez « Hive View »

Vous devez arriver sur une fenêtre similaire à celle ci-dessous :

Exécution du premier script Hive

Exécutez la requête suivante :

Show tables;

La requête ne va retourner, normalement, qu’une seule table : « Hivesampletable »

Cliquez sur le bouton bleu « New Worksheet » et copiez le code suivant.

Attention de bien changer le nom en rouge par le nom de votre Data Lake Store.

DROP TABLE IF EXISTS censusdata;

CREATE EXTERNAL TABLE censusdata (

sumlev string

, state string

, county string

, stname string

, ctyname string

, sex string

, origin string

, agegrp string

, imprace string

, respop string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

STORED AS TEXTFILE LOCATION 'adl://funky.azuredatalakestore.net/census';

Voici une copie d’écran d’exemple :

Cliquez sur le bouton vert “Execute”

Quelques secondes après, vous devez obtenir le résultat suivant :

Revenez sur le premier script que vous avez créé en cliquant sur l’onglet du haut « Worksheet ». Puis exécutez le script à nouveau en cliquant sur le bouton vert « execute ». La nouvelle table censusdata apparaît alors.