巨量資料時代的挑戰與良機

巨量資料準備擊垮現代企業的分析和管理能力,但是帶來挑戰的同時也呈現了良機。

人類產生巨量資料的現象,涵蓋了現今企業所產生的大量結構化與非結構化資料。這是另一場少數贏家、多數輸家的石油戰爭?還是一場全民受惠的風潮?

人類產生的內容,包括所有每天建立的檔案和電子郵件。 其中有簡報、文書處理文件、試算表、音訊檔案,以及其他我們日復一日所產生的文件。 這些檔案佔用了大部分組織絕大多數的數位儲存空間。 它們不僅需要長時間保留,而且還附帶大量的相關中繼資料。

人類產生的內容已經夠多了,它們的中繼資料更是驚人。中繼資料是指檔案的相關資訊 - 誰建立的檔案、何時建立、檔案類型、檔案儲存之資料夾、誰正在讀取檔案,以及檔案存取權限。 這些內容和中繼資料,共同構成了巨量資料。

鋪天蓋地的資料

由人類產生的巨量資料,其問題在於大多數的組織尚不具備能夠處理這些資料的工具。根據依隆大學 (Elon University) 的「皮尤研究中心」(Pew Research Center) 和「網路想像中心」( Imagining the Internet Center) 所發表的最近一項針對 1,000 多位網際網路專家及其他網際網路使用者所做的問卷調查顯示,這個世界可能還無法妥善處理巨量資料,也還不瞭解巨量資料。

這些專家得出的結論就是,到了 2020 年,我們所建立的大量資料 (他們稱之為「數位廢氣」) 也許可以加強生產力、提升組織透明度,以及延伸「可知未來」的領域,但是,誰有權存取這些資訊、由誰控制存取權,以及政府或公司行號是否能夠謹慎運用這些資訊,也是他們所擔心的重點。

根據這項調查: 「到了 2020 年,人類與機器對巨型資料的分析,可以提升社會、政治與經濟的智慧。巨量資料的盛行,將會推動即時預測事件等方面的能力;推動「推論軟體」的發展,以評估資料模式的方法來推斷結果;以及推動進階關聯演算法的建立,以全新的視野來解讀世界。」

在這些受調查的網際網路專家當中,有 39 % 對於巨量資料的優點持相反論調。這個相反論調主張:「到了 2020 年,人類與機器對巨量資料分析所產生的問題,將會超過它所解決的問題。大量分析用的資料集,會造成我們對於預測能力自信的錯覺,而使許多人犯下重大且有害的錯誤。而且,巨型資料的分析,將會遭到自私自利的有力人士與機構之濫用,為一己私慾來操縱結果。」

其中一位研究參與者是企業家 Bryan Trogdon。 他表示:「巨量資料是一種新型的石油。有能力開採這些資源的公司、政府與組織,其所獲得的利益,遠遠超過沒有能力的公司、政府與組織。巨量資料具有決定輸贏的速度、革新與靈活度,因而讓我們的心態從以往抱持的 "三思而後行",轉變成 "以小搏大為先"。」

另一位受訪者 Jeff Jarvis 是一位教授與部落客。 他表示:「媒體與法規制定者往往把巨量資料以及巨量資料對於隱私權的假想威脅加以邪化。 這種道德恐慌常常歸因於技術上的異動。 但是這種現象所隱含的寓意是: 這些資料有其尚未挖掘的價值,而其價值就於在我們新發現的分享能力。」

Jarvis 繼續說道:「Google 創辦人呼籲政府法規制定者別要求他們快速刪除搜尋,因為,從他們的正常模式與反常現象看來,他們發現自己比衛生局官員更能早一步追蹤流行性感冒的爆發,而且他們也相信,透過類似的流行疫情追蹤,絕對能夠拯救數千萬條的生命。將大小型資料邪化,等於是將知識邪化,絕非明智之舉。」

Sean Mead 是 Mead and Clark, Interbrand 的分析總監,表示:「與 1990 中後期網際網路和電腦革命相較之下,公開取得的大型資料集、更好用的工具、更廣佈的分析技能,以及早期人工智慧軟體,更能夠引爆經濟活動,並且提高生產力。社會運動會起而釋出大型資料儲存庫的存取權,限制 AI 的發展與使用,進而 "解放" AI。」

超出分析能力的範圍

這些爭論不僅有趣,同時也指出了問題的核心。 資料集的成長,已經超出我們能夠分析及處理的範圍,若不借助複雜的自動化技術,勢必無法達到目標。 我們必須仰賴技術來分析和處理這一波龐大的內容與中繼資料潮。

分析人類產生的巨量資料具有極大的潛力。不僅如此,運用中繼資料的力量,也成為管理與保護人類產生之資料內容的必要方式。雖然拜檔案共用、電子郵件和內部網路之賜,商務使用者得以輕鬆儲存及共用檔案,但是目前大部分組織所累積的這些資料,以小型資料的思維來說,已經超出他們能夠持續管理及保護的範圍了。

許多企業的難題才正要開始,因為他們無法再像 15 年前解答小型靜態資料集的問題一樣來解答問題。這些問題包括:重要資料在哪裡?誰有存取權?誰應該具有存取權?也因此,根據產業研究人員 IDC 的評估,其實只有一半真正應該保護的資料受到保護。

加上雲端檔案共用,問題就更加複雜了。這些服務又另外建立了一個也會逐漸擴大的儲存庫,來存放人類產生的內容,而這些資料也同樣需要加以管理及保護。雲端內容位於公司基礎結構之外,具有不同的控制和管理程序,因而更加複雜。

哈佛大學柏克曼中心 (Berkman Center) 的 David Weinberger 說道:「我們才剛開始瞭解巨量資料所能解決的問題範圍,即使這麼做無異於承認自己不如想像中那麼難以捉摸、魯莽和衝動。 如果利用人類產生之巨量資料的力量,能夠讓資料保護和管理不那麼難以捉摸、魯莽和衝動,相信這些組織一定會由衷感激的。」

人類產生巨量資料的概念,必會在未來幾年內,為企業帶來旗鼓相當的挑戰與商機。

欲瞭解更多微軟所提供的巨量資料解決方案,可以參考下網站:

公有雲解決方案 MIicrosoft Azure HDInsight - https://azure.microsoft.com/zh-tw/solutions/big-data/

商業智慧解決方案 (Office + SQL Server) - https://www.microsoft.com/zh-tw/server-cloud/solutions/business-intelligence/default.aspx


Rob Sobers  是 Varonis Systems 的設計師、Web 開發人員和技術策略家,同時也是《Learn Ruby the Hard Way》這本電子書的共同作者。他在科技業已有 12 年的經驗,在加入 Varonis 之前,曾經任職於軟體工程、設計與專業服務產業。