Hadoop on Linux on Azure – Step-by-Step: Install Hadoop (3)

In this article, we set up a Hadoop cluster on Azure using virtual machines running Linux. More specifically, we use the HDP 2.1 on Linux distribution by Hortonworks that also provides the HDP distributions for the Windows platform. Furthermore, we install Hadoop with Ambari, an Apache project that provides an intuitive UI for provisioning, managing…

7

Hadoop on Linux on Azure – Step-by-Step: Build the Infrastructure (2)

In this blog series (Hadoop on Linux on Azure), we set up a Hadoop cluster on Azure using virtual machines running Linux. More specifically, we use the HDP 2.1 on Linux distribution by Hortonworks that also provides the HDP distributions for the Windows platform. Furthermore, we install Hadoop with Ambari, an Apache project that provides…

15

Hadoop on Linux on Azure (1)

In this blog series, we set up a Hadoop cluster on Azure using virtual machines running Linux. More specifically, we use the HDP 2.1 on Linux distribution by Hortonworks that also provides the HDP distributions for the Windows platform. Furthermore, we install Hadoop with Ambari, an Apache project that provides an intuitive UI for provisioning,…

5

Mahout for Dummies (1)

Contents 1 What is Mahout?2 Step-by-Step: Mahout with HDInsight Interactive Style3 Step-by-Step: Mahout with HDInsight PowerShell Style What is Mahout? Apache Mahout, 15.04.2014 Mahout is one of many Hadoop-related projects at Apache. Its mission is to build a scalable machine learning and data mining library. In other words, Mahout provides data science tools useful for…

8

Mahout for Dummies (2) – Step-by-Step: Mahout and HDInsight Interactive Style

In the blog series on Mahout for Dummies, we now get our hands dirty. Let’s see Mahout in action on an HDInsight cluster. Contents 1 What is Mahout?2 Step-by-Step: Mahout with HDInsight Interactive Style3 Step-by-Step: Mahout with HDInsight PowerShell Style   Step-by-Step: Mahout with HDInsight Interactive Style But before heading right into Mahout, the HDInsight…

23

Azure PowerShell Serie (3): Run Hive Script

Willkommen im nächsten Beitrag aus der Azure PowerShell Serie! Wenn man mit HDInsight oder Hadoop arbeitet, eignet sich gerade für SQL-Datenbankler die Sprache HiveQL sehr gut. Mit HiveQL muss man sich nicht extra den Kopf wegen MapReduce-Jobs zerbrechen, sondern kann stattdessen mit einer SQL-ähnlichen Sprache Skripte erstellen, die automatisch in MapReduce-Jobs übersetzt werden. Bei diesem…

1

Azure PowerShell Serie (2): Custom Create HDInsight

In unserer Azure PowerShell Serie knüpfen wir uns die etwas ausgefallenere Erstellung eines HDInsight-Clusters vor. Im Azure Management Portal hieße das konkret folgendermaßen: In dem untenstehenden PowerShell-Skript passieren noch viele weitere Sachen: Hive/Oozie MetastoreHierfür wird im Skript selber ein Azure SQL Server und eine Datenbank erstellt. Analog in dem Azure Portal sieht es so aus:…

3

Azure PowerShell Serie (1): Simple HDInsight

Einen HDInsight-Cluster zu erstellen ist ja recht einfach. In der Blog-Serie Big Data Twitter Demo haben wir bereits einen HDInsight-Cluster von dem Windows Azure Management Portal aus erstellt (siehe Big Data Twitter Demo – HDInsight Cluster erstellen). Wenn man jedoch so wie ich immer öfters einen neuen HDInsight-Cluster erstellt, lernt man PowerShell zu schätzen und…

3

Step-by-Step: Big Data Do-it-yourself

Du willst auch so ein Twitter-Echtzeit-Dashboard inklusive aller tollen Animationen bauen? Du willst wissen, wie Deine Themen in der Zwitscher-Welt jetzt gerade in diesem Moment ankommen? Oder twittern überhaupt welche über Deine Themen? Das schreit ja geradezu nach den üblichen Verdächtigen von Buzzwords: Big Data, Social Media, Echtzeit-Analyse, Sentiment Analysis, etc. Die Blogserie Big Data…

1

Big Data Twitter Demo – Demo (3 von 3)

Nachdem wir nun das große Ganze unserer Big Data Twitter Demo erläutert haben und die auch aufgebaut haben, können wir endlich mit der Demo prahlen!  Dabei unterscheiden wir zwei Stadien: die letzten Vorbereitungen (Stadium zwischen Aufbau und Demo) und Show Time. Letzte Vorbereitungen… Daten sammeln Hive-Analyse starten Refresh Data in PowerPivot Show Time Echtzeit-Dashboard SQL…

1