迷思止步 - 系列一：Big Data 淘金，就得砸大錢蓋礦場？

Article
10/14/2014

全球最大零售業者 Wal-Mart 運用 Hadoop 技術，針對駐留於 Facebook 或 Twitter 等社群媒體的商品討論訊息，加以深入分析，進而快速掌握消費者的真實意向，順勢築起難以踰越的競爭門檻；藉由此例，也讓世人領略到海量資料 (Big Data) 的奧妙。

不可諱言，「海量資料」是當前最具吸睛效果的 IT 話題之一；只因多數企業意識到，其賴以提振營運績效的致勝密碼，僅有某部分被蘊含於 ERP 或 CRM 等結構化資料，其餘更大的一塊瑰寶，竟潛藏在文字、影像、聲音甚或網頁等大量非結構化資料，這些海量資料就像是豐盛的寶庫，以往未曾有效開採，今後必須勤加蒐集、整合並分析，才不致暴殄天物。

正因如此，舉凡 Hadoop、MapReduce 等攸關海量資料的技術辭彙，開始成為人們熱切追逐的焦點。但問題來了，Hadoop 這個被視為足以取代 ETL 的技術，絕非三兩下就能輕易上手，要考慮的因素著實不少，而企業縱使有幸突破這些障礙，又得面臨另一大難關，那就是「錢」！為了每月、每季甚至每半年才來這麼一次的 Big Data 分析，就得大手筆斥資建立分散式處理架構？好比為了應付偶一為之的淘金需求，就砸下重金興建礦場，ROI 是否划算，顯得值得商榷。

全球競局如此激烈，凡事都不容磋跎猶豫，企業理應趕緊從海量資料挖寶，但卻又礙於諸多阻撓而遲遲未能出手，如何是好？為此，微軟 (Microsoft) 提供一系列解決方案，期望幫助企業快速獲取必備工具，從此再無後顧之慮，恣意坐享淘金樂趣！

SQL Server，營造最友善的分析環境

事實上，企業費盡千辛萬苦鑽研海量資料淘金之術，目的就在於修成正果，妥善呈現最終分析結果；而 SQL Server 堪稱迄今最被廣為使用、也最易上手的商業智慧 (BI) 與報表工具，能有效提供海量資料分析服務，進而幫助企業，從繁複資料淬煉過濾出寶貴資訊。

SQL Server 足以承先啟後，其中一頭介接後端 Hadoop 運算架構，另一端則可銜接 Office、SharePoint 或 Reporting Service 等前端呈現工具，使得原本頗為艱澀的海量資料處理結果，得以化繁為簡，藉由直覺互動、親和易懂的風貌，清清楚楚展現在使用者眼前。

尤其最難能可貴的是，任何前端使用者皆可透過自我服務，從 SQL Server 的身上取得分析成果，完全無需勞駕 IT 人代為處理；也難怪若干網購平台的行銷人員，在推出 Campaign 後短短 4 小時內，就能鉅細靡遺地向老闆回報成果，即使老闆不厭其煩探究主要消費者族群分布，究竟落在哪一性別、哪些地區、哪些年齡層，行銷人員都可立即轉換分析維度，輕鬆給出明確答案。

當然，多以非結構化型態呈現的海量資料，與傳統結構化資料有所歧異，倘若沿襲過去關聯式資料慣用的 Raw-based 資料頁擺放模式，則 I/O 與搜尋速度恐將「遲緩」到令人不敢領教的地步；有鑑於此，SQL Server 2012 轉而採取 ColumnStore Index 索引方式，藉此發揮 10 倍以上的增速效果，讓使用者得以快速查詢海量資料，絕不拖泥帶水。

取道公有雲服務，快速挺進 Hadoop

海量資料的奧妙精深之處，其實就在於分散式處理，而 MapReduce 即是實現這個精髓的關鍵技術；只不過，多數程式開發人員有苦難言，撰寫 MapReduce 程式的難度不低，可稱得上艱困任務。

所幸微軟運用累積多時的資料採礦 (Data Mining)、Bing 搜尋等經驗與知識，將原本繁複的 MapReduce 演算法則化為 Template，統一集結於一個函式庫，成為 Windows Azure Marketplace 之中的一支「App」；有了這套垂手可得的法寶，程式開發人員無需絞盡腦汁從零開始，便可快速動手打造 MapReduce 程式。

既然是分散式處理環境，可以想見，在 Hadoop 架構裡頭，一定擁有許許多多的運算節點，此時也需要由 System Center 坐鎮指揮，有效管理眾多節點。

而為了協助企業卸除沈重的 Hadoop 建置成本壓力，微軟別出心栽在 Windows Azure 公有雲端平台上提供 Hadoop 租用服務，使得企業不必投資布建大量伺服器及資料庫，就可隨租即用獲取必要資源，執行海量資料運算任務，開創「數字煉金」的終南捷徑。

不可否認，任何分散式處理環境都有其臨界點，不可能漫無止境地擴張下去，微軟一路橫跨本地資料庫、私有雲、公有雲與混合雲，提供全方位海量資料解決方案，正足以幫助企業卸除臨界壓力，為偌大的海量資料分析需求，找到宣洩的出海口！

T-Drive 計畫，堪稱經典應用案例

持平而論，不少供應商端出的海量資料解決方案，屢屢讓人為之目炫神迷，但說到實作案例，卻未必能講出幾件；微軟則不然，透過北京的 T-Drive 及Urban Planning 案例，即已充分顯露深厚的海量資料功力。

時值 2009~2010 年期間，微軟研究院與北京市政府合作，為該市 33,000 輛計程車部署 GPS 裝置，期望汲取駕駛人的智慧及經驗，進而針對持續累積的龐大導航數據進行分析，一方面找出最佳的行車路徑，二方面發掘交通瓶頸。

爾後發現，北京市區最明顯的交通瓶頸，出現在北四環路，主因在於天通苑、來廣營等兩個地區的居民，皆以此為出入幹道，無怪乎經常出現塞車情況，非得另闢其他出口，方能分散龐大車流量。北京市政府遂根據 GPS 海量資料分析結果，決定新建長達 1.7 公里的北湖渠西路，此舉果真一擊中的，有效化解交通堵塞難題，因而造福廣大市民。

迷思止步 - 系列一：Big Data 淘金，就得砸大錢蓋礦場？

SQL Server，營造最友善的分析環境

取道公有雲服務，快速挺進 Hadoop

T-Drive 計畫，堪稱經典應用案例

Additional resources