由希望兜售下一個大事物的咨詢顧問、IT公司描述的這些“大數(shù)據(jù)”故事,其背后的假設(shè)存在很多問題。幸運的是,誠實的大數(shù)據(jù)實踐者,那些天生就具有高度質(zhì)疑精神的數(shù)據(jù)科學(xué)家,連篇累牘地向我們講述了對該領(lǐng)域的許多炒作感到厭倦的原因。以下就是部分理由:
哪怕是像Facebook和Yahoo這樣的巨頭通常也不和大數(shù)據(jù)打交道,Google風(fēng)格工具的應(yīng)用是不合時宜的。
Facebook和Yahoo用自己龐大的內(nèi)部“集群”(一組計算能力很強的服務(wù)器)來處理數(shù)據(jù)。這些集群的必要性是大數(shù)據(jù)的標(biāo)記之一。畢竟嘛,如果用你家里的PC就能處理的數(shù)據(jù)當(dāng)然不能算“大”。將問題打破成許多小部分,然后對一個部分用一大組計算機進(jìn)行處理,這種分而治之的必要性,描繪了像Google需要對全球的每一個網(wǎng)頁進(jìn)行排名這類典型的大數(shù)據(jù)問題的特征。
但是事實上,哪怕是Faceboo和Yahoo,那些集群對于它們手上的許多任務(wù)來說也是沒有必要的。以Facebook為例,他們的工程師交給集群處理的大多數(shù)任務(wù)也只是MB—GB級的,這意味著用一臺計算機—甚至是筆記本就能處理了。
Yahoo的故事類似,交給Yahoo的集群處理的任務(wù)規(guī)模平均是12.5GB。這個規(guī)模要大于普通桌面PC的處理能力,但是對于一臺強大的服務(wù)器來說沒有問題。
所有這一切都可用微軟研究院的一篇論文概括,這篇論文的題目叫做《買集群不會有錯》。論文指出,哪怕是在對數(shù)據(jù)為饑渴的公司,許多工程師解決的問題都不需要在集群上跑。為什么這是個問題呢?因為存在著非常多類型的問題用集群處理起來時相對低效的,甚至完全就是不合時宜的。
大數(shù)據(jù)已變成“數(shù)據(jù)分析”的同義詞,令人困惑,還會產(chǎn)生反效果
數(shù)據(jù)分析是個老古董了,可是現(xiàn)在談起數(shù)據(jù),你不在它前面加個“大”字都覺得不好意思—非常有必要的數(shù)據(jù)分析實踐已經(jīng)被一股更猛烈但沒那么有用的炒作之風(fēng)一掃而光。比方說,這里就有一篇文章循循誘導(dǎo)自己的讀者要將大數(shù)據(jù)吸收進(jìn)自己的小企業(yè)當(dāng)中,但是里面討論的那些東西還不如在筆記本上的EXCEL好用。
也就是說,實際上大多數(shù)企業(yè)要處理的是Open Knowledge Foundation的Rufus Pollock所謂的小數(shù)據(jù)。根據(jù)Pollock的定義,所謂的小數(shù)據(jù)是指可以方便地在一臺機器(高端筆記本或服務(wù)器)上存儲和處理的數(shù)據(jù)。Pollock認(rèn)為小數(shù)據(jù)才是真正的革命,但是小數(shù)據(jù)和大數(shù)據(jù)沒有太多的聯(lián)系。
超量化你的數(shù)據(jù)往往會讓你事倍功半
數(shù)據(jù)是不是越多越好?答案幾乎是否定的。實際上,如果你要想尋找相關(guān)性—想知道X與Y是否有聯(lián)系好讓你可以基于此采取行動的話,收集到的數(shù)據(jù)越多反而會傷害你。
社交網(wǎng)絡(luò)分析公司的數(shù)據(jù)分析首席科學(xué)家Michael Wu說:“隨著數(shù)據(jù)規(guī)模的不斷增加,你能夠從大數(shù)據(jù)析取出來的信息反而會逐漸減少。”也就是說,數(shù)據(jù)量一旦超過了某個點,增加數(shù)據(jù)所獲得的回報就會減少,因此,收集更多數(shù)據(jù)純屬浪費時間。
一個原因:你的數(shù)據(jù)“越大”,在相關(guān)性方面有可能出現(xiàn)的誤報就會越多。數(shù)據(jù)科學(xué)家Vincent Granville在大數(shù)據(jù)之咒中說,哪怕是只有1000條記錄的數(shù)據(jù)集,要想陷入到“處理好幾百萬的關(guān)聯(lián)關(guān)系”的情況也并不難。這句話的意思是說,“在那么多的相關(guān)性當(dāng)中,只有少數(shù)幾個會因為偶然的原因而相關(guān)性極強:如果你用這樣的相關(guān)性進(jìn)行預(yù)測建模的話,必輸無疑。”
這個問題一直困擾著大數(shù)據(jù)應(yīng)用的鼻祖之一—基因?qū)W??茖W(xué)家滿足于對整個基因序列進(jìn)行排序,然后深入剖析其中的相關(guān)性,這種沒有盡頭的“盤前審問”會導(dǎo)致種種無用的結(jié)果發(fā)生。
在某些情況下,大數(shù)據(jù)帶給人的困惑跟啟發(fā)一樣多。
對數(shù)據(jù)采集方式的偏見,缺乏背景信息,收集資料的缺口,數(shù)據(jù)處理的手段、整體的認(rèn)知偏差等等,這些都會導(dǎo)致算法幻象的產(chǎn)生。換句話說,哪怕你有大數(shù)據(jù)在手,但是大數(shù)據(jù)的處理卻仍然需要非常高超的技巧和嫻熟的經(jīng)驗(除非大數(shù)據(jù)好用了)。而且即便他們后分析出了答案,也許那個答案是你根本就不需要“大數(shù)據(jù)”。
數(shù)據(jù)究竟是以大為美還是以小為美?
你的企業(yè)需不需要數(shù)據(jù)。當(dāng)然需要。但是處理規(guī)模卻不是購買數(shù)據(jù)產(chǎn)品的關(guān)鍵。同樣的問題自其出現(xiàn)以來也困擾著科學(xué)—數(shù)據(jù)質(zhì)量、整體目標(biāo),上下文的重要性,以及直覺,這些都是企業(yè)用數(shù)據(jù)進(jìn)行決策所固有的東西。記?。焊窭锔?bull;孟德爾僅靠一本筆記本的數(shù)據(jù)就發(fā)現(xiàn)了基因遺傳的秘密。重要的是收集合適的數(shù)據(jù),而不是隨便收集。
掃一掃
關(guān)注新圖聞科技
全國咨詢熱線
186-0984-0880