Microsoft, Big Data und Hadoop – was steckt dahinter?

Auf dem SQLPass Summit 2011 hat Microsoft Corporate Vice President Ted Kummert die Microsoft Roadmap und Strategie zu “Big Data” vorgestellt. Ein wichtiger Baustein in dieser Roadmap ist hierbei das Apache Projekt Hadoop. Doch was steckt hinter Big Data, Hadoop und  der Ankündigung von Microsoft sich im Umfeld von Big Data zu engagieren.

 Was versteht man unter Big Data?

Wie der Name “Big Data“ schon vermuten lässt, geht es in der Regel darum, große Datenmengen mit  hohem Durchsatz zu verarbeiten, die klassische Datenbanken und auch entsprechende Analyse Werkzeuge nur sehr eingeschränkt verarbeiten können.  Dies können z. B. Log Files, Images, Videos, Sensor Daten , Finanz oder auch Börsendaten sein. Um derartige große Datenmengen effizient verarbeiten zu können, wird bei Big Data auf den Ansatz einer Massiv Parallelen Architektur zugegriffen, die die Last auf z.B. mehrere 1000 Server verteilt.

Für Facebook und Yahoo gibt es im Zusammenhang mit  „Big Data“ z. B. folgende beeindruckende Zahlenwerte, die ich dem Hadoop Wiki entnommen habe.

  • Facebook: Currently they have 2 major clusters:

    • A 1100-machine cluster with 8800 cores and about 12 PB raw storage.
    • A 300-machine cluster with 2400 cores and about 3 PB raw storage.
    • Each (commodity) node has 8 cores and 12 TB of storage.
    • Facebook’s Hadoop/Hive system ingests 15 terabytes of new data per day
  • Yahoo:

    • More than 100,000 CPUs in >40,000 computers running Hadoop
    • Our biggest cluster: 4500 nodes (2*4cpu boxes w 4*1TB disk & 16GB RAM)

 Und was ist Hadoop?

Das Apache Projekt Hadoop ist ein Framework zur parallelen Datenspeicherung und -verarbeitung sehr großer Datenmengen, die verteilt in Clustern von Servern „fehlertolerant“ im lokalen Filesystem gespeichert werden. Das Design von Hadoop ermöglicht Skalierungen von einem einzelnen Server bis zu mehreren tausend Servern.  Eine umfangreiche Referenzenliste finden Sie HIER.

Das Projekt besteht primär aus den folgenden Unter-Projekten:

Weitere Details zu Hadoop finden Sie auf der Hadoop Projektseite HIER.

 Was beinhaltet die Microsoft-Ankündigung?

  • In Zusammenarbeit mit dem Partner Hortonworks ist es geplant, Hadoop vollständig auf dem Windows Server zu  „portieren“. Ein CTP für Hadoop-Based Services, sprich eine „Hadoop Based Distribution“ für Windows Server, ist für 2012 geplant.
  •  Zudem ist es geplant, Hadoop auch als Dienst in Windows Azure anzubieten. Die Verfügbarkeit eines Community Technology Preview (CTP) von Hadoop-Based Services für Windows Azure  ist für Ende 2011 geplant. Primäres Ziel ist es, Entwicklern und Anwendern die Möglichkeit zu geben, standard Hadoop Jobs  direkt in der Azure Cloud ablaufen zu lassen.  Weitere Infos finden Sie HIER.
  • Darüber hinaus wurde die Verfügbarkeit von Konnektoren bekannt gegeben, die er ermöglichen, vom Connector for SQL Server und Connector for SQL Server Parallel Data Warehouse auf Hadoop zuzugreifen und damit eine einfache Integration der „Big Data“ Welt mit der bestehenden SQL Server Welt zu ermöglichen.
  • Zudem ist ein Hive ODBC Driver & Hive Add-in for Excel geplant, um direkt mit Excel und PowerPivot auf Hadoop zugreifen zu können.

Weiterführende Informationen  finden Sie  auch in dem White Paper HIER., der Webseite HIER. und der Original-Ankündigung Hier.

Welche Möglichkeiten ergeben sich aus der Ankündigung?

Mit diesem Ansatz ermöglicht Microsoft den Kunden, beide Welten zusammen zu führen - die Welt der „Big Data“ und der relationalen Welt mit dem SQL Server – und  die Stärken aus beiden Welten für sich nutzbar zu machen. Die Vorteile sind u. a.:

  • Steht Hadoop auf Azure zur Verfügung, hat der Kunde nahezu unbegrenzte Skalierungsmöglichkeiten und kann sehr leicht eine „BigData“ Umgebung aufbauen  und standard Hadoop Jobs  direkt in der Azure Cloud ablaufen lassen.
  • Die Konnektoren ermöglichen einen leichten Zugriff auf die in Hadoop-Systemen abgelegten Daten.. Beispielsweise können Kunden die unstrukturierten Daten in Hadoop analysieren und die daraus gezogenen Erkenntnisse in ein Data-Warehouse im SQL Server nutzbar machen.
  • Die neue Hadoop basierende Distribution für Windows ermöglicht eine einfachere Installation, Konfiguration und Nutzung auf der Windows Plattform. Weitere Infos finden Sie HIER.
  • Anwender können mittels Hive ODBC Driver oder auch Hive Add-in for Excel mit den Microsoft Excel und auch Power Pivot for Excel  direkt auf Hadoop Daten zugreifen und individuelle Analysen durchführen. Weiter Information dazu finden Sie HIER.

 Viel Spaß mit GROßEN Daten wünscht

FSeiwerth