迷思止步 - 系列一:Big Data 淘金,就得砸大錢蓋礦場?

全球最大零售業者 Wal-Mart 運用 Hadoop 技術,針對駐留於 Facebook 或 Twitter 等社群媒體的商品討論訊息,加以深入分析,進而快速掌握消費者的真實意向,順勢築起難以踰越的競爭門檻;藉由此例,也讓世人領略到海量資料 (Big Data) 的奧妙。

不可諱言,「海量資料」是當前最具吸睛效果的 IT 話題之一;只因多數企業意識到,其賴以提振營運績效的致勝密碼,僅有某部分被蘊含於 ERP 或 CRM 等結構化資料,其餘更大的一塊瑰寶,竟潛藏在文字、影像、聲音甚或網頁等大量非結構化資料,這些海量資料就像是豐盛的寶庫,以往未曾有效開採,今後必須勤加蒐集、整合並分析,才不致暴殄天物。

正因如此,舉凡 Hadoop、MapReduce 等攸關海量資料的技術辭彙,開始成為人們熱切追逐的焦點。但問題來了,Hadoop 這個被視為足以取代 ETL 的技術,絕非三兩下就能輕易上手,要考慮的因素著實不少,而企業縱使有幸突破這些障礙,又得面臨另一大難關,那就是「錢」!為了每月、每季甚至每半年才來這麼一次的 Big Data 分析,就得大手筆斥資建立分散式處理架構?好比為了應付偶一為之的淘金需求,就砸下重金興建礦場,ROI 是否划算,顯得值得商榷。

全球競局如此激烈,凡事都不容磋跎猶豫,企業理應趕緊從海量資料挖寶,但卻又礙於諸多阻撓而遲遲未能出手,如何是好?為此,微軟 (Microsoft) 提供一系列解決方案,期望幫助企業快速獲取必備工具,從此再無後顧之慮,恣意坐享淘金樂趣!

SQL Server,營造最友善的分析環境

事實上,企業費盡千辛萬苦鑽研海量資料淘金之術,目的就在於修成正果,妥善呈現最終分析結果;而 SQL Server 堪稱迄今最被廣為使用、也最易上手的商業智慧 (BI) 與報表工具,能有效提供海量資料分析服務,進而幫助企業,從繁複資料淬煉過濾出寶貴資訊。

SQL Server 足以承先啟後,其中一頭介接後端 Hadoop 運算架構,另一端則可銜接 Office、SharePoint 或 Reporting Service 等前端呈現工具,使得原本頗為艱澀的海量資料處理結果,得以化繁為簡,藉由直覺互動、親和易懂的風貌,清清楚楚展現在使用者眼前。

尤其最難能可貴的是,任何前端使用者皆可透過自我服務,從 SQL Server 的身上取得分析成果,完全無需勞駕 IT 人代為處理;也難怪若干網購平台的行銷人員,在推出 Campaign 後短短 4 小時內,就能鉅細靡遺地向老闆回報成果,即使老闆不厭其煩探究主要消費者族群分布,究竟落在哪一性別、哪些地區、哪些年齡層,行銷人員都可立即轉換分析維度,輕鬆給出明確答案。

當然,多以非結構化型態呈現的海量資料,與傳統結構化資料有所歧異,倘若沿襲過去關聯式資料慣用的 Raw-based 資料頁擺放模式,則 I/O 與搜尋速度恐將「遲緩」到令人不敢領教的地步;有鑑於此,SQL Server 2012 轉而採取 ColumnStore Index 索引方式,藉此發揮 10 倍以上的增速效果,讓使用者得以快速查詢海量資料,絕不拖泥帶水。

取道公有雲服務,快速挺進 Hadoop

海量資料的奧妙精深之處,其實就在於分散式處理,而 MapReduce 即是實現這個精髓的關鍵技術;只不過,多數程式開發人員有苦難言,撰寫 MapReduce 程式的難度不低,可稱得上艱困任務。

所幸微軟運用累積多時的資料採礦 (Data Mining)、Bing 搜尋等經驗與知識,將原本繁複的 MapReduce 演算法則化為 Template,統一集結於一個函式庫,成為 Windows Azure Marketplace 之中的一支「App」;有了這套垂手可得的法寶,程式開發人員無需絞盡腦汁從零開始,便可快速動手打造 MapReduce 程式。

既然是分散式處理環境,可以想見,在 Hadoop 架構裡頭,一定擁有許許多多的運算節點,此時也需要由 System Center 坐鎮指揮,有效管理眾多節點。

而為了協助企業卸除沈重的 Hadoop 建置成本壓力,微軟別出心栽在 Windows Azure 公有雲端平台上提供 Hadoop 租用服務,使得企業不必投資布建大量伺服器及資料庫,就可隨租即用獲取必要資源,執行海量資料運算任務,開創「數字煉金」的終南捷徑。

不可否認,任何分散式處理環境都有其臨界點,不可能漫無止境地擴張下去,微軟一路橫跨本地資料庫、私有雲、公有雲與混合雲,提供全方位海量資料解決方案,正足以幫助企業卸除臨界壓力,為偌大的海量資料分析需求,找到宣洩的出海口!

T-Drive 計畫,堪稱經典應用案例

持平而論,不少供應商端出的海量資料解決方案,屢屢讓人為之目炫神迷,但說到實作案例,卻未必能講出幾件;微軟則不然,透過北京的 T-Drive 及Urban Planning 案例,即已充分顯露深厚的海量資料功力。

時值 2009~2010 年期間,微軟研究院與北京市政府合作,為該市 33,000 輛計程車部署 GPS 裝置,期望汲取駕駛人的智慧及經驗,進而針對持續累積的龐大導航數據進行分析,一方面找出最佳的行車路徑,二方面發掘交通瓶頸。

爾後發現,北京市區最明顯的交通瓶頸,出現在北四環路,主因在於天通苑、來廣營等兩個地區的居民,皆以此為出入幹道,無怪乎經常出現塞車情況,非得另闢其他出口,方能分散龐大車流量。北京市政府遂根據 GPS 海量資料分析結果,決定新建長達 1.7 公里的北湖渠西路,此舉果真一擊中的,有效化解交通堵塞難題,因而造福廣大市民。