Siła Danych

To zupelnie niespodziewane i nieoczekiwane. A do tego zaskakujace – to, kto mówi o znaczeniu danych w dzisiejszym swiecie:

https://www.ted.com/talks/bono_the_good_news_on_poverty_yes_there_s_good_news.html.

I to fajne jest zarazem. Bono mówiacy o bazach danych - po pierwsze: ciekawe (kontekst, w którym to mówi, dziedziny zycia, w których gromadzenie i analizowanie danych okazuje sie istotne). Po drugie – nie musze juz uciekac, gdy uslysze pytanie
‘czym sie zajmujesz?’ (zajmowac sie bazami danych – no troche brakuje do perkusisty zespolu rockowego jeszcze, ale to juz tylko póltora metra, a bylo 20 metrów co najmniej). (Tak sobie mozna wmówic przynajmniej; BTW: Data Scientist:
The Sexiest Job of the 21st Century - https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ar/1).

Temat jest wazny, bo gromadzonych danych jest tyle, ze jeszcze tyle nie gromadzilismy. (A dodatkowo, za 2 lata, ktos powie pewnie – to nieprawda, no bo przeciez dopiero teraz gromadzimy tyle danych, ze jeszcze tyle nie gromadzilismy. Ale OK, to nas
utwierdzi w przekonaniu, ze bedzie sie dzialo w tych danych, i ta nasza profesja ma przyszlosc…) Wiec jak nie zmarnowac tych danych? Jak wydobyc z nich cos najbardziej wartosciowego? Jak zwiekszyc nasza efektywnosc czy produktywnosc? Zrobic ten dodatkowy krok, wejsc na wyzszy poziom?

Ponizej próba skompilowania, przegladu wybranych zastosowan i trendów w dziedzinie systemów zarzadzania bazami danych, oraz istotnych – w tym kontekscie - nowych narzedzi (Microsoft). (Nie ma tutaj instrukcji obslugi, jest natomiast próba zainteresowania interesujacym tematem.)

 

Zastosowania

Dane zmieniaja nasze zycie – czasami w zupelnie nieprzewidywalny sposób, a te wszystkie mozliwe zastosowanie pewnie trudno sobie wyobrazic jeszcze. To, o czym wspomnial Bono - wiecej danych, wieksze upublicznienie danych, latwiejszy
dostep do danych - to wieksza przejrzystosc instytucji, urzedów, organizacji (uzyty przez niego termin ‘factivist’).

Miejsca na kreatywnosc w wykorzystywaniu, wyszukiwaniu, korelowaniu danych, szukaniu zastosowan – jest coraz wiecej. Gromadzenie danych na obecna skale niesie ze soba wiele wyzwan (narzedzia, które musza ciagle ewoluowac, nasze
umiejetnosci), pewnych zagrozen – ale tez niesamowite mozliwosci, potencjal dotyczacy poprawy wielu aspektów naszego zycia. Przyklady:

- elektroenergetyka: takze w Polsce instalowane sa juz ‘inteligentne’ liczniki pozwalajace na monitorowanie i czeste pomiary zuzycia energii elektrycznej; na podstawie tych danych mozna lepiej prognozowac i zwiekszac efektywnosc zuzycia energii (zwlaszcza w polaczeniu z ‘inteligentnymi’ urzadzeniami, które moga dostosowywac zuzycie do zmiennych cen i kosztów wytwarzania energii elektrycznej) (Smart Power - https://business.time.com/2013/03/28/smart-power/);

- medycyna: informacje o pacjentach, ich stylu zycia, diecie, które gromadzone sa w bazach danych – te dane powinny ulatwiac weryfikowanie skutecznosci terapii, analizowanie korelacji miedzy czynnikami srodowiskowymi, stylem zycia czy stosowanymi lekami a stanem zdrowia… (How big data will save your life – https://www.computerworld.com/s/article/9238593/How_big_data_will_save_your_life?taxonomyId=221&pageNumber=1);

- telekomunikacja: wykorzystanie danych generowanych przez uzytkowników telefonów komórkowych do celów takich, jak walka z malaria (Big Data from Cheap Phones - https://www.technologyreview.com/featuredstory/513721/big-data-from-cheap-phones/);

- ….. (tu miejsce na nasze dane, na nasza historie, która sie wyloni z tych danych potencjalnie).

 

Trendy

Skala, ilosc gromadzonych danych, nowe zastosowania – wymuszaja zmiany w podejsciu do przetwarzania, analizowania danych. Ponizej wybrane zagadnienia oraz – w nawiasie – przyklady technologii i narzedzi rozwijanych obecnie przez
Microsoft:

- Big Data (HDinsight);

- In-Memory Databases (Hekaton);

- Self-Service BI (Excel 2013 plus PowerPivot, PowerView, Data Explorer, GeoFlow);

- Chmura (Windows Azure).

 


 
Pojecie ‘samoobslugi’ (Self-service) odnosi sie do BI dzisiaj czesto; ale mozna pójsc jeszcze dalej tutaj jak widac.

 

Dla zainteresowanych trendami i pomyslami realizowanymi przez grupe rozwijajaca SQL Server - tona informacji na stronie: SQL Server Blog - https://blogs.technet.com/b/dataplatforminsider/.

 

Nowe Narzedzia i Technologie (Przyklady)

Poniewaz nie zyjemy w idealnie uporzadkowanym swiecie, nie istnieje idealnie uporzadkowane podejscie, jedno narzedzie do analizowania danych (ustrukturyzowanych, nieustrukturyzowanych). Jest wiele narzedzi. I jest postep, poniewaz mozliwosci
wymiany danych miedzy tymi narzedziami i technologiami sa coraz wieksze. Ponizej bardzo krótkie przedstawienie (zasygnalizowanie) dwóch wybranych technologii/narzedzi:

- ulatwiajacego samodzielna ‘eksploracje’, analize danych Data Explorera (skala, zastosowanie: klient, Information Worker);

- ulatwiajacego analize duzych ilosci danych HDInsight (skala, zastosowanie: serwer, a wlasciwie wiele serwerów, Big Data).

 

Data Explorer

Data Explorer jest narzedziem (dodatkiem do Excela) ulatwiajacym analizowanie, korelowanie danych pochodzacych z róznych zródel, w tym miedzy innymi danych relacyjnych, ustrukturyzowanych, nie w pelni ustrukturyzowanych, Hadoop (i HDinsight), Azure Marketplace, a nawet danych udostepnianych na stronach internetowych typu Wikipedia.

 


Data Explorer.

 

HDinsight

Big Data to powszechnie stosowany termin odnoszacy sie do zbiorów danych, których analizowanie i przetwarzanie za pomoca tradycyjnych metod (np. pojedynczych serwerów) staje sie niewykonalne. To dane generowane przez Facebook, Twitter czy
systemy wykorzystywane przez firmy telekomunikacyjne. Opracowany zostal zestaw algorytmów, jezyków, technik, które pozwalaja na efektywne przetwarzanie duzych ilosci danych, za pomoca wielu serwerów dzialajacych w ramach klastrów, na przyklad: Map Reduce, Hadoop czy - charakteryzujacy sie urocza nazwa - jezyk PIG.

Implementacja Hadoop opracowana i oferowana przez Microsoft to HDInsight. Przy czym istnieja 2 opcje korzystania z tej technologii:

- Azure HDInsight – pozwalajacy na wykorzystanie ogromnych zasobów centrów danych Microsoft i systemu Azure (oraz, dodatkowo – istniejacych tam zbiorów danych udostepnianych poprzez Windows Azure Marketplace, na przyklad danych meteorologicznych);

- HDInsight dzialajacy jako usluga w systemie Windows Server 2012 (a wiec lokalnie).

 

Poniewaz wymienione technologie i podejscia sa ze soba coraz bardziej ‘kompatybilne’, mozemy je stosowac w polaczeniu – na przyklad eksplorowac dane udostepniane w HDInsight za pomoca Data Explorera, analizowac je za pomoca PowerPivot, czy ladowac takie dane do SQL Servera oraz Analysis Services (‘Any Data, Any Size, Anywhere’).

 

Podsumowanie

Ilosc gromadzonych danych oraz nowe technologie, udostepniane narzedzia do analizowania tych danych, otwieraja przed nami niemozliwe wczesniej mozliwosci. Dane + kreatywnosc + wyobraznia = innowacyjnosc. Równa sie wartosc dodana (choc wiem, ze to kontrowersyjne podejscie do równan matematycznych – ale matura juz za mna na szczescie). No i skoro Bono mówi o tym nawet – to musi byc duza sprawa. I duzo danych. Moze warto to wykorzystac?

 

Wiecej Danych:

Server & Tools Blogs - https://blogs.technet.com/b/serverandtools/

SQL Server Blog - https://blogs.technet.com/b/dataplatforminsider/

Windows Azure - www.windowsazure.com

Windows Azure HDInsight - https://www.hadooponazure.com/

Microsoft HDInsight (Big Data) Solution - https://social.technet.microsoft.com/wiki/contents/articles/9396.microsoft-hdinsight-big-data-solution.aspx

Data Explorer - https://blogs.msdn.com/b/dataexplorer/

Microsoft “Data Explorer” Preview for Excel Help - https://office.microsoft.com/en-us/excel-help/start-page-HA104003813.aspx

Hekaton Breaks Through - https://research.microsoft.com/en-us/news/features/hekaton-122012.aspx

Analysis Services & PowerPivot Blog - https://blogs.msdn.com/b/analysisservices/

SQL Server Reporting Services Team Blog - https://blogs.msdn.com/b/sqlrsteamblog/archive/2011/11/17/what-s-new-in-power-view.aspx

Dallas Utilities: Electricity seasonal use simulation using project codename “GeoFlow” Preview and Power View - https://blogs.office.com/b/microsoft-excel/archive/2013/04/11/dallas-utilities-electricity-seasonal-use-simulation-with-geoflow-preview-and-powerview.aspx

Microsoft Business Intelligence - https://www.microsoft.com/en-us/bi/default.aspx

Microsoft Business Intelligence at a Glance Poster - https://www.microsoft.com/en-us/download/details.aspx?id=35586