「大數(shù)據(jù)」與「數(shù)據(jù)分析」兩者是相關(guān)的:一如數(shù)據(jù)分析,大數(shù)據(jù)運(yùn)動(dòng)也嘗試從數(shù)據(jù)中萃取有用的信息,藉此創(chuàng)造企業(yè)的競爭優(yōu)勢。
但大數(shù)據(jù)與一般數(shù)據(jù)分析,有三個(gè)關(guān)鍵差別:
差別1:資料量。在2012年,世界每天產(chǎn)生的數(shù)據(jù)量約為2.5 exabyte(EB),而這個(gè)數(shù)字,會(huì)在每四十個(gè)月左右增加一倍。因特網(wǎng)每秒流傳的數(shù)據(jù)量,比二十年前整個(gè)因特網(wǎng)儲(chǔ)存的數(shù)據(jù)還多。企業(yè)因此有機(jī)會(huì)分析大量數(shù)據(jù),一個(gè)數(shù)據(jù)集就可能有許多個(gè)petabyte(PB)的數(shù)據(jù),而且數(shù)據(jù)源并非只有網(wǎng)絡(luò)。
差別2:速度。就許多數(shù)據(jù)應(yīng)用而言,數(shù)據(jù)產(chǎn)生的速度,甚至比數(shù)據(jù)量更重要。實(shí)時(shí)或近乎實(shí)時(shí)的信息,讓一家公司得以比競爭對手靈敏得多。這種實(shí)時(shí)信息,可帶給華爾街分析師與企業(yè)經(jīng)理人明顯的競爭優(yōu)勢。
差別3:種類。大數(shù)據(jù)的種類多樣,可以是貼在社交網(wǎng)絡(luò)上的信息、狀態(tài)更新及圖片;傳感器的讀數(shù);手機(jī)的全球衛(wèi)星定位系統(tǒng)(GPS)訊號(hào)等等。大數(shù)據(jù)的重要數(shù)據(jù)源,有很多是新事物。同時(shí),儲(chǔ)存、記憶、處理、帶寬等資料運(yùn)算的所有要素,成本不斷下降,以前成本昂貴的數(shù)據(jù)密集型模式,如今正迅速變得符合成本效益。隨著越來越多商業(yè)活動(dòng)數(shù)字化,新的數(shù)據(jù)源,加上越來越便宜的設(shè)備,帶領(lǐng)我們進(jìn)入一個(gè)新時(shí)代:幾乎所有與業(yè)務(wù)相關(guān)的議題,都有大量的數(shù)字信息。手機(jī)、網(wǎng)絡(luò)購物、社交網(wǎng)絡(luò)、電子通訊、GPS及各種儀表機(jī)械,都是在日常運(yùn)作中產(chǎn)生大量數(shù)據(jù)。如今人人都是活動(dòng)的數(shù)據(jù)產(chǎn)生器。這種數(shù)據(jù)往往是未結(jié)構(gòu)化的,也就是說,并不是有條理地儲(chǔ)存在數(shù)據(jù)庫中,因此不便使用。但雜亂的資料中,有大量有意義的訊息等著被發(fā)現(xiàn)。數(shù)據(jù)分析帶來嚴(yán)謹(jǐn)?shù)臎Q策技術(shù),適當(dāng)應(yīng)用可讓巨量數(shù)據(jù)變得簡單得多,并發(fā)揮強(qiáng)大的力量。