Software Plus Services: Excel Tabellen Analyse mit Data Mining in the Cloud

S+S (Software Plus Services) ist die Bezeichnung unserer grossen Anstrengungen Software, wie wir sie heute kennen und nutzen (installierte Client und Server) zu ergänzen und zu erweitern mittels Webdiensten (Services in the Cloud).

Jetzt gibt es eine erste ALPHA Version für einen Data Mining Service in the Cloud. WOW, das ist nun wirklich mal ein Webdienst nach meinem persönlichen Geschmack! Business Intelligence ist ein Lieblingsthema von mir und darin ist die Thematik Data Mining (DM) meines Erachtes ein Juwel, das noch viel zu wenige unserer Kunden nutzen und schätzen, primär aus Unwissen, dass sie diese Technologie und Fähigkeit bereits besitzen und "nur" noch nutzen müssten.

Was ist Data Mining überhaupt und welche Technologien werden dafür benötigt?

Data Mining ist eine Fähigkeit die mit SQL Server ermöglicht wird. Data Mining ist aber kein neuer Feature, sondern schon seit SQL Server 2000 waren erste Szenarien möglich, der Einsatz aber sicherlich noch nicht so einfach. Mittels SQL Server 2005 wurden die Data Mining Fähigkeiten massiv erweitert und vorallem die notwendigen Schritte für einen Einsatz enorm vereinfacht. Für die Entwickler wurde im Visual Studio (BIDS) die Entwicklung von DMX Queries mittels visuellen Wizards zur Verfügung gestellt. Ein Add-in für Office Excel und Visio für Data Mining hat dann die Fähigkeiten von Data Mining bis an die Benutzeroberfläche transportiert.

In diesen zwei früheren BLOG-Einträge hatten wir schon darüber berichtet:
- Excel und Visio 2007 werden zum DataMining Client und nutzen serverseitig SQL Server 2005 Data Mining
- Kennen Sie die EHE von Excel und Analysis Services

Data Mining ist ganz neu nun auch mit SQL Server 2008 noch weiter verbessert worden. Unter anderem wurde der Excel Add-In für Data Mining für die SQL Server 2008 Version angepasst, wo nun zwei neue, zusätzliche Tabellen Analyse Möglichkeiten (Prediction Calculator und Shopping Basket Analysis) möglich sind. Weitere Details zu DM mit SQL Server 2008 finden Sie auf: https://www.microsoft.com/sqlserver/2008/en/us/data-mining.aspx

 

Data Mining in the Cloud

Anlässlich der KDD-2008 Konferenz hat das SQL Server Data Mining Team eine erste ALPHA Preview Version für Tabellen Analyse in the Cloud vorgestellt. Dieser Dienst beinhaltet sowohl eine Thin-Client Version/Interface (ohne Installationsanforderungen) und auch einen Excel Add-in (analog dem öffentlich verfügbaren Excel-Add in siehe oben), welcher die GESAMTE Funktionalität von SQL Server 2008 Tabellen Analyse für Excel anbietet. Da dies ein Webdienst ist, können Sie nun die neuesten Data Mining Fähigkeiten direkt aus Excel oder aus dem Browser nutzen, OHNE selber einen SQL Server 2008 zu installieren. Diese Rolle übernimmt in diesem Szenario der SQL Server Data Mining Service. Tönt spannend, oder?

Die folgende Abbildung zeigt Excel 2007 mit dem Excel Add-In für Tabellen Analyse in the cloud. Dieser funktioniert identisch wie die Version mit einem eigenen SQL Server. Natürlich wird in der CLOUD-Version die Excel Tabelle über das Web an den Service zum SQL Server geschickt und dort wird on-the-fly mittels des ausgewählten DM-Algorithmus das DM-Modell erstellt. Obwohl dieses DM-Modell nicht bei Microsoft gespeichert bleibt, ist der Einsatz von hochsensitiven Daten auf diesem Weg (mindestens zum heutigen Alpha Zeitpunkt) noch nicht empfehlenswert.

Excel Add-in Data Mining in the Cloud (with SQL Server 2008)

Data Mining für die Massen? -- Hmm..., mal sehen was aus diesem Service so wird. Auf alle Fälle kommen Sie so momentan zu gratis Erkenntnissen mittels Data Mining. Damit Sie nicht einen ersten Test Ihre eigenen Daten benutzen müssen, habe ich Ihnen zwei TEST Excel Sheets auf meinem SKYDRIVE zur Verfügung gestellt, Sie können diese frei benutzen und von hier runterladen:

das File CollegePlans(18k).xlsx verwende ich für meine Data Mining / Excel Demos. Dieses hat 18.000 Zeilen und beschreibt ein US Amerikanisches Szenario mit Studenten. Die Felder sind

- ID
- Gender (male oder female)
- ParentIncome (variabel)
- IQ (IQ Wert)
- ParentEngouragement (Not Engouraged, Encouraged)
- CollegePlans (plans to attend, does NOT plan to attend)

Als nächsten Schritt wählen Sie die gewünschte Tabellen-Analyse Funktion aus

- Analyze Key Influencers
- Detect Categories
- Fill From Example
- Forecast
- Highlight Exceptions
- Scenario Analysis
- Prediction Calculator
- Shopping Basket Analysis

Die Parameter der unterschiedlichen Data Mining Algorithmen füllen Sie ganz einfach mittels Wizards, wie den Folgenden aus.

  Wizard für Data Mining (Analyze Key Influencer)

Die Abbildung oben ist ein Beispiel für einen Wizard (DM Algorithmus für Analyze Key Influencers). In unserem Beispiel Fall mit den Studenten wollen wir die Haupteinflussfaktoren für das Feld "CollegePlans" mittels DM feststellen. Vor dem RUN kommt eine Warnung die Ihnen mitteilt, dass diese Daten an einen Server geschickt werden.

Erst wenn Sie hier "I AGREE" anklicken und OK drücken, werden die Daten an den Webdienst geschickt. Der Menu Punkt "Connections" zeigt Ihnen die entsprechend angesteuerte Web-Service URL an.

  image image

 

Das Resultat wird Ihnen dann sehr praktisch in einem neuen Excel Tab dargestellt:

  Resultate TAB von Data Mining Tabellen Analyse (hier mit dem Analyze Key Influencers)

 

Super Sache, oder?

Hier finden Sie weitere Informationen: https://www.sqlserverdatamining.com/cloud/

Neben unserem einfachen Excel Beispiel ist der (englische) Artikel von Brent Ozar sehr interessant, wo er beschreibt, wie er PERFMON Daten von SQL Server mittels DM analysiert -  SQLServerPedia Artikel über PERFOM Analyze

Und natürlich DIREKT vom Architekten, Bogdan Civat und seinem BLOG

 

Noch weitere Möglichkeiten Data Mining auszuprobieren, oder eine Infrastruktur selber zu installieren?

Das gleiche erreichen, aber selber Installieren geht wenn Sie:
- SQL Server 2008 TRIAL Version (180 Tage gültig): DOWNLOAD
- Data Mining Add-in für SQL Server 2008 (gratis, aber Office 2007 muss schon vorhanden/installiert sein): DOWNLOAD

Eine andere Variante DataMining aus technischer/Entwickler Sicht kennen zu lernen ist via Virtual Labs:
- von Microsoft virtualisiert gehostetes Environement für Ihre Ausbildung/Test, inkl. Skript (Hands-on-Lab)
  TechNet Virtual Lab: Data Mining with SQL Server 2008