Lab Azure Big Data (3) : utilisation de Hive

Dans le cadre d’un programme de “readiness” interne, j’ai participé à la création de contenu autour du Big Data. Comme j’ai eu de nombreuses demandes pour récupérer le contenu que j’ai créé, je me suis dit que ça pourrait peut-être intéresser d’autres personnes. Donc je partage sur mon blog Smile!

Ce contenu est constitué d’une série d’articles qui va de la création d’un cluster HDInsight à l’exploitation des données.

Sommaire des articles

  1. Création d’un cluster HDInsight
  2. Utilisation de MapReduce
  3. Utilisation de Hive
  4. Utilisation de Pig
  5. Analyses des données avec Power BI

Préparation des données

Via le portail Azure, connectez-vous à votre Data Lake Store.

Dans « Overview », cliquez sur « Data Explorer »

image

Dans « Data Explorer », cliquez sur « New Folder »

image

Donnez un nom à votre dossier, puis cliquez sur le bouton « Ok »

image

Téléchargez le fichier suivant :

https://www2.census.gov/programs-surveys/popest/datasets/2010/modified-race-data-2010/stco-mr2010_mt_wy.csv

Puis uploadez ce fichier dans le dossier que vous venez de créer, en cliquant sur « Upload » depuis le Data Explorer de Data Lake Store :

image

Connexion au cluster HDInsight

Depuis le portail Azure retrouvez votre cluster HDInsight

Cliquez sur « Overview » puis « Cluster Dashboards »

image

Cliquez sur « HDInsight cluster dashboard »

clip_image012

Vous devez arriver sur le dashboard du cluster

clip_image014

En haut à droite, cliquez sur les petits carrés et sélectionnez « Hive View »

image

Vous devez arriver sur une fenêtre similaire à celle ci-dessous :

clip_image018

Exécution du premier script Hive

Exécutez la requête suivante :

Show tables;

La requête ne va retourner, normalement, qu’une seule table : « Hivesampletable »

image

Cliquez sur le bouton bleu « New Worksheet » et copiez le code suivant.

Attention de bien changer le nom en rouge par le nom de votre Data Lake Store.

DROP TABLE IF EXISTS censusdata;

CREATE EXTERNAL TABLE censusdata (

sumlev string

, state string

, county string

, stname string

, ctyname string

, sex string

, origin string

, agegrp string

, imprace string

, respop string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

STORED AS TEXTFILE LOCATION 'adl://funky.azuredatalakestore.net/census';

Voici une copie d’écran d’exemple :

clip_image022

Cliquez sur le bouton vert “Execute

Quelques secondes après, vous devez obtenir le résultat suivant :

image

Revenez sur le premier script que vous avez créé en cliquant sur l’onglet du haut « Worksheet ». Puis exécutez le script à nouveau en cliquant sur le bouton vert « execute ». La nouvelle table censusdata apparaît alors.

image

Cliquez sur le bouton bleu « New Worksheet ». Entrez la requête suivante :

SELECT * FROM censusdata LIMIT 100;

image

Cliquez sur le bouton vert « Execute »

image

Vous devez obtenir le résultat ci-dessous. La table que nous avons créée pointe en réalité vers le fichier qui est stocké dans notre lac de données.

image

Dans le prochain article, nous allons voir comment utiliser Pig pour traiter un jeu de données.

Franck Mercier