隨著各企業(yè)組織收集越來越龐大而多樣的數(shù)據(jù)集,對技術(shù)優(yōu)良的數(shù)據(jù)科學(xué)家的需求將持續(xù)升高?!?a href="www.hbr.org" target="_blank">哈佛商業(yè)評論》將這種工作稱為「21世紀(jì)最誘人的職位空缺」。
可惜,這個職務(wù)的日常實(shí)際狀況,并不符合經(jīng)過浪漫美化的說法。
從2012年起,我的同事和我開始仔細(xì)檢視數(shù)據(jù)科學(xué)家的親身經(jīng)驗(yàn)。在斯坦福大學(xué),我對25家企業(yè)的數(shù)據(jù)分析師進(jìn)行35次訪談,這些企業(yè)涵蓋各種行業(yè),包括醫(yī)療保健、零售、營銷和金融。之后,我又和另外200-300位分析師談話。我們發(fā)現(xiàn),這些分析師的時間大多花在運(yùn)用各種方式來處理數(shù)據(jù),包括探索數(shù)據(jù)、架構(gòu)數(shù)據(jù),以及建立數(shù)據(jù)環(huán)境。
換句話說,他們的時間大多花在把數(shù)據(jù)轉(zhuǎn)化為可用形式,而非尋找數(shù)據(jù)蘊(yùn)含的意義。
沒錯,這起源于分析法的正向改變。盡管企業(yè)曾經(jīng)緊密掌控數(shù)據(jù)倉儲,但它們現(xiàn)在轉(zhuǎn)向較為靈活的分析環(huán)境,因?yàn)槠髽I(yè)渴望采取數(shù)據(jù)導(dǎo)向的決策方式,因此需要不同類型的工作。如今,數(shù)據(jù)質(zhì)量不再是一項根本的事實(shí),而是取決于分析工作的目標(biāo)。探索式分析法和可視化,都要求分析師動態(tài)存取不同形式的不同數(shù)據(jù)源。
問題在于,大部分組織不是為了這個目的而設(shè)立。在傳統(tǒng)的數(shù)據(jù)倉儲環(huán)境中,當(dāng)數(shù)據(jù)被加載倉儲時,信息科技團(tuán)隊會架構(gòu)數(shù)據(jù)和設(shè)計綱要,然后主要負(fù)責(zé)確保嚴(yán)守的數(shù)據(jù)質(zhì)量規(guī)則。雖然這種預(yù)先設(shè)計和架構(gòu)很昂貴,但多年來一直運(yùn)作得相當(dāng)好。不過,隨著企業(yè)處理的數(shù)據(jù)集越來越龐大和復(fù)雜,這種管理數(shù)據(jù)的舊方式并不實(shí)際。
為跟上腳步,大部分企業(yè)組織目前會視需要來儲存原始數(shù)據(jù)和設(shè)計架構(gòu),在使用數(shù)據(jù)時、而非加載數(shù)據(jù)時,才設(shè)計綱要和不同數(shù)據(jù)集之間的關(guān)系。這種變動,不僅讓數(shù)據(jù)分析師擁有更大的彈性,來尋找非預(yù)期的見解,同時也將耗費(fèi)時間的探索、架構(gòu)和整理的責(zé)任,完全放在數(shù)據(jù)分析師身上。
我們在2012年對數(shù)據(jù)分析師所作的研究調(diào)查中,將數(shù)據(jù)科學(xué)的流程分為五個高端工作:探索、爭論、描繪概況、建立模型和產(chǎn)生報告。大部分的分析和可視化工具,都把焦點(diǎn)放在這個工作流程的最后兩個階段??上?,大部分?jǐn)?shù)據(jù)分析師的時間都花在前三個階段。
前三個階段的工作包括:尋找與特定分析工作相關(guān)的數(shù)據(jù)、格式化和驗(yàn)證數(shù)據(jù)以符合數(shù)據(jù)庫和可視化工具的需求、判斷數(shù)據(jù)是否有質(zhì)量問題,以及了解數(shù)據(jù)中各種不同領(lǐng)域的特性。在這些階段,數(shù)據(jù)科學(xué)家會遇到許多挑戰(zhàn),例如,有些數(shù)據(jù)集可能會有遺漏和錯誤的值,或是有極端值。這些工作往往需要以Python和Perl等「腳本」程序語言,來撰寫不同尋常的程序,或是使用微軟Excel等工具進(jìn)行廣泛的手動編輯。但如果沒有發(fā)現(xiàn)數(shù)據(jù)有問題,這可能造成之前所作的假設(shè)是錯誤的或誤導(dǎo)的;有40%的業(yè)務(wù)計劃未能達(dá)到目標(biāo)成效,主要原因就是數(shù)據(jù)質(zhì)量不佳。
因此,杰出數(shù)據(jù)科學(xué)家的技能通常都浪費(fèi)掉了,因?yàn)樗麄兠τ趶氖碌碗A的數(shù)據(jù)整理工作,或者當(dāng)他們無法快速存取自己需要的數(shù)據(jù)時,他們也無法好好發(fā)揮才能。這造成重大的瓶頸,當(dāng)數(shù)據(jù)從 Hadoop等數(shù)據(jù)儲存庫,轉(zhuǎn)移到能產(chǎn)生更好見解的分析工具時,拖慢了數(shù)據(jù)流動的速度。在數(shù)據(jù)倉儲和分析項目中,數(shù)據(jù)整理和準(zhǔn)備工作,可能要花50-80%的開發(fā)時間和成本。
企業(yè)沒有解決這些問題,反而經(jīng)常擴(kuò)大需要數(shù)據(jù)科學(xué)家注意的數(shù)據(jù)量。通過活動和系統(tǒng)日志、第三方應(yīng)用程序編程接口和供貨商、其他可公開取得的數(shù)據(jù),企業(yè)能夠取得越來越龐大和多樣的數(shù)據(jù)源。但若沒有設(shè)立適當(dāng)?shù)南到y(tǒng),操控處理數(shù)據(jù)所導(dǎo)致的超高成本,將會讓大部分?jǐn)?shù)據(jù)靜靜躺在「數(shù)據(jù)湖」中,無法使用。
此外,若是讓數(shù)據(jù)分析成為許多部門的核心業(yè)務(wù)功能,技能良好的分析師和信息人員就無法進(jìn)行分析工作,而必須把大半的時間,用來協(xié)助其他人通過低階程序設(shè)計去取得他們需要的數(shù)據(jù)。
根據(jù)研究暨顧問機(jī)構(gòu)顧能公司(Gartner),在2014年,有64%的大型企業(yè)準(zhǔn)備實(shí)施大數(shù)據(jù)項目,但85%的《財星》雜志五百大企業(yè)將無法成功實(shí)施。罪魁禍?zhǔn)讘?yīng)該是這些耗時的數(shù)據(jù)準(zhǔn)備作業(yè)。它們不僅束縛了數(shù)據(jù)科學(xué)家,讓他們無法充分發(fā)揮,而且大幅降低大數(shù)據(jù)計劃成功的機(jī)率。
如果我們期望充分運(yùn)用大數(shù)據(jù),就需要提升數(shù)據(jù)準(zhǔn)備作業(yè),擺脫目前構(gòu)成整個流程的手動、累贅作業(yè)。數(shù)據(jù)科學(xué)家必須能夠更靈活地轉(zhuǎn)換數(shù)據(jù),而不只是手動準(zhǔn)備數(shù)據(jù)以便進(jìn)行分析。各領(lǐng)域的專家必須要能夠探索不同數(shù)據(jù)集之間的更深刻關(guān)系,而不是讓程序設(shè)計師或數(shù)據(jù)分析師長時間參與,結(jié)果稀釋了數(shù)據(jù)。
最后一點(diǎn)是,分析數(shù)據(jù)的目標(biāo)不只是取得見解,還有改進(jìn)業(yè)務(wù)流程。成功的分析可以促成產(chǎn)品和營運(yùn)的進(jìn)步,為組織帶來價值,但前提是,負(fù)責(zé)處理數(shù)據(jù)的人員要能花更多時間尋找見解。如果我們希望數(shù)據(jù)分析擴(kuò)展的速度,能像儲存和處理數(shù)據(jù)的技術(shù)進(jìn)展的那么快,就必須要讓數(shù)據(jù)科學(xué)家的生活變得更加有趣。