1. 客服熱線:400-615-8698
      多特蒙德中文

      關於大數據的十大謬見

      2014年02月21日 TAG: 本站

      關於大數據的十大謬見


      來源:網界網


      近期,有關大數據的新聞佔據着各大媒體科技報道的主要版面。但是,有許多文章似乎華而不實,一些報道鼓吹大數據是能夠解決一切問題的解決方案,如它能進行入侵檢測、預防詐騙、治療癌症,甚至還能設置最優的產品價格。

      但是,業界定義的大數據是指迅速收集的、各種各樣的、大量的數據集合,而不是能夠處理一切問題的萬能解決方案。在現實中,如果一些企業偏信這些與大數據相關的謬見,那麼這些企業很可能會偏離正軌,走向錯誤的發展方向,浪費大量的時間和金錢,喪失其在市場上有利的競爭地位,還可能損害企業的聲譽。

      此篇文章就講述了業界常出現的有關大數據十大謬見。

      1.只有數據科學家才能處理大數據

      事實上,在處理大數據時,光靠數據科學家是遠遠不夠的。

      “如果你不能首先確定到底需要什麼樣的信息的話,那麼單憑數據科學家自己是不可能成功地從大數據中提取有用信息的”,賓夕法尼亞大學醫院(Penn Medicine)數據分析部門高級主管Pat Farrell說:“你還需要熟悉業界動態、掌握相關領域知識的人才,他們知道問題的所在,也瞭解什麼樣的解決方案對於你所從事的領域最有價值。”

      例如,在賓夕法尼亞大學醫院有兩個系統,一個是醫療系統,一個是醫學院系統。長期以來,醫療系統通常從一個數據倉庫中收集臨牀醫療數據。與此同時,在醫學院系統中,出現了一個新的技術,可以實現對人類基金組的排序,併產生了大量的數據。

      Farrell說:“我們知道這些數據一定存在着某些價值,而我們最終也有了能夠獲取這些價值的計算能力。我們將專業的醫療知識與數據分析技術相結合,爲預測醫療開拓了一片新的、更廣闊的領域。”

      2.數據越大,價值越大

      收集數據,並把它儲存起來再登記入冊,這會花費許多時間、佔用很多資源。如果企業或機構在收集數據時不加選擇、任意地收集大量數據,那麼很可能會造成大量的資源浪費,而這些資源完全可以用到更有價值的項目上去。

      Farrell建議企業在收集數據之前一定要有一個具體的目標,或關鍵性能指標,要明確自己需要什麼樣的數據,再去有目的地收集數據。

      Farrell說:“你需要從你收集的數據中提取有價值的信息,但這並不代表你收集的數據越多,你所獲得的價值越大。”

      3.大數據用於大企業

      大企業或許會有更多的內部數據來源,他們可以利用這些數據獲取對自身企業發展有價值的東西。但這並不代表大數據只用於大企業,小企業也能夠收集來自社交媒體平臺、政府機構和數據供應商的數據,並從這些數據中提取有利信息。

      戴爾軟件信息管理解決方案部門的產品管理高級總監Darin Bartik說:“對於企業來說,不管它的規模有多大,利用數據分析制定的決策總比單純依靠直覺或第六感制定的決策要好得多,且更加可靠。”

      小企業雖然不像大企業那樣經常利用數據分析來制定決策,但是當這些小企業真正這樣做的時候,它們會使公司走向快速、正確的發展軌道。

      Darin Bartik說:“小企業可以利用其最佳實踐,進一步推動數據分析決策在企業中的發展,以此趕超或者勝過那些強大的競爭對手。”

      4.收集數據後不及時整理分類

      位於美國舊金山的雲計算商業智能供應商Birst的首席執行官Brad Peters表示,雖然數據存儲的成本越來越低,但它並不是免費的。然而,對於許多大公司來說,它們對於數據慾望的增長速度要比數據存儲成本降低的速度快得多。

      許多企業往往在收集完數據之後,並不迅速處理這些數據,造成數據存儲成本增加。Brad Peters說:“我發現很多大的企業或機構收集了一大堆數據之後卻不及時處理這些數據,導致他們在這些數據上的開支逐漸增大,而他們也並沒有從這些數據中獲取任何價值。”

      事實上,企業中的一些數據集已經開始造成了企業的收益遞減。這種現象就像通過分析選民數據信息來預測選舉結果一樣,在預測過程中,你需要一定數量的選民作爲樣本,但是如果樣本數量超過一個臨界點之後,無論增加多少選民,對於預測結果不會有任何太大的影響。也就是說,樣本數量過多,所花費的成本也就越多,但對於目標沒有任何實質性的價值。

      “數據冗餘的話,企業支出的不僅僅是存儲成本,還會面臨許多其他的問題”,Recommind公司信息治理和大數據管理全球主管Dean Gonsowski說。比如,如果數據泄露的話,那麼公司也會承擔相應的損失。Recommind是一家位於美國舊金山的專注於非結構化數據分析的公司。

      最終,數據越多,那麼分類整理數據所需要的時間也就越多。Dean Gonsowski說:“當數據倉庫的規模達到數十億條記錄時,那麼光是檢索數據就需要花上幾個小時,甚至是幾個星期。這時候,這些信息非但不會給企業帶來商業價值,反而會阻礙企業系統的運轉,因爲這些系統根本不能處理這麼大信息量。”

      5.所有數據都是一樣的

      美國佛吉尼亞州曾收集過在過去20年裏學生的註冊信息、獎學金,以及學位授予情況的數據,但這並不意味着20年前收集的與之存儲在同一個數據域裏的數據就一定是相同的數據。

      佛吉尼亞州高等教育委員會的政策研究和數據倉庫部門的主管Tod Massa說:“由於數據都存儲在一個數據倉庫裏,這導致研究人員認爲這些數據都是等同的,而這正是我需要處理的一個最大的問題。我們收集的ACT(American College Test,美國大學入學考試)和SAT(Scholastic Assessment Test,學術能力評估測試)的學生成績,最初我們收集的只是整個佛吉尼亞州的學生成績,但這導致我們的調查研究出現一個缺口,所以後來我們不僅收集了佛吉尼亞州的數據,還收集了其他州學生的數據。而且,不同種族在K-12級和高等教育的數據也不同。”

      事實上,任何特定的數據,如果由不同的組織機構,或在不同的時間內,或由不同的人發佈的話,也有所不同。Tod Massa說:“假如收集數據的這家公司或機構是完全孤立或與世隔絕的,那麼情況可能會不一樣。但我認爲,隨着時間的推移,它們收集的數據也會有所變化。”

      因此,數據分析人員不僅要有數據統計的技能,還要掌握一定的數據知識,並清楚地瞭解相關行業內的動向和整體發展趨勢。

      這一點也同樣適用於從外部數據源收集的數據,過去的那種數據收集和分析的方式已經完全改變了。能夠了解不同的數據文化背景和數據環境,對於充分利用這些數據是非常必要的。


      6.數據預測越具體越好

      我們通常認爲,如果一件事情越具體,那麼它就會越精確,比如,“下午三點十二分”就比“下午某個時候”更加精確;氣象學家預測“週日早上會有降雨”就比“這週末50%會下雨”的預測要精確得多。

      但是事實上,結果正好相反。大多數情況下,預測得越具體其準確率反而並不高。

      例如,一個顧客買了一臺具有特殊配置的電腦,而另一個購買了同樣一款電腦的顧客又購買了一雙亮粉色的高跟鞋。“在這一數據信息中,購買亮粉色高跟鞋的信息顯得有些太過具體甚至有些多餘,這可能會影響數據分析的過程,給數據分析結果造成一定的誤差”,美國加利福尼亞聖塔莫尼卡的營銷公司Retention Science的首席執行官Jerry Jao說。

      Jerry Jao表示,這通常是業務和營銷經理常會出現的問題。

      7.大數據等同於Hadoop

      Hadoop是業界比較流行的非結構化數據的開源架構,近來也引起了不少業界的關注。但是Hadoop並不是大數據的唯一解決方案,企業還有許多其他的選擇。

      SAP大數據總經理和資深副總裁Irfan Khan指出企業還可以選擇NoSQL、MongoDB、Cassandra或其他相關技術來處理大數據。

      這些技術中的某些技術對於處理一些特殊的大數據問題非常有效。尤其是Hadoop,它可以把數據分成若幹個數據組,並能同時處理多個數據組。Hadoop解決方案可以用來處理許多大數據相關的問題,但並不是所有大數據的問題它都能處理。

      位於美國加州雷德伍德城的大數據諮詢公司LucidWorks的首席技術官Grant Ingersoll說:“YARN(Hadoop新版中的資源控制框架)和Hadoop2可以處理大數據的一些問題,但在大數據的其他問題上,Hadoop或許並不是最佳的解決方案。在處理大數據之前,企業應該認真分析問題,並根據自身的實際情況選出一個最佳的、最合適的解決方案,而不是盲目跟風,選擇那些使用率較高的解決方案。

      8. 最終用戶不需要直接訪問大數據

      隨着企業從各種各樣的來源快速收集大量的數據信息,對於企業的普通員工而言,這些數據處理器起來非常複雜,但事實並非如此。

      例如,在重症病房中,醫療設備上會產生大量的數據,如心跳速度、呼吸數據和心電圖讀數等,但大多情況下,醫生和護士只能看到病人當前的數據,卻看不到歷史數據。

      飛利浦醫療保健(Philips Healthcare)病患護理和臨牀信息(PCCI)系統的首席營銷官Anthony Jones:“我根本看不到10分鐘之前醫療器械上顯示的病人的數據,更不可能畫出這些數據在一個小時內的趨勢曲線圖。”

      但是,對於醫生來說,病人的歷史數據是非常有價值的,他們可以根據這一數據制定更好的護理方案。

      Anthony Jones表示,如今,我們需要讓所有能夠生成數據的醫療設備進行交互(儘管這些設備最初並沒有這樣的性能),並使用不同的平臺、操作系統和程序語言。一旦我們這樣做了,那麼醫護人員就能夠獲得他們所需要的有用的數據。

      9.大數據用來解決大問題

      一家大型銀行的首席信息官近期發表其對大數據的看法,同時也談到了終端用戶自主服務的問題。據Birst公司首席執行官Peters回憶說,這位銀行的首席信息官並不支持最終用戶自助服務。

      Peters表示,許多企業的主管們認爲大數據只能解決一些特殊類型的大問題。他說:“一些人使用大數據的目的是利用一個核心的數據科學家團隊幫助他們解決少數且高價值的問題。他們從沒有考慮過讓普通人接觸這些數據信息,因爲他們覺得這些人根本不需要這些數據。”

      對此,Peters並不贊同這種想法,但這種想法在很多行業裏非常普遍。Peters說:“一些大的保險公司普遍陷入一個誤區,它們認爲他們的最終客戶不具備處理自助服務的能力。”

      10.大數據的泡沫最終會破裂

      媒體上對大數據的宣傳和炒作反反覆覆、起伏跌宕,但就大數據技術本身來講,它最終會面臨變革。大數據的泡沫或許並不代表大數據的終結,就像互聯網泡沫不代表互聯網的終結一樣。

      即使有關大數據的炒作平息了下來,企業也仍然會有大數據需要處理。由於未來大數據將成指數級增長,企業要處理的大數據比他們想象的還要多。據市場調查公司IDC預測,到2020年企業所收集的數據總量每兩年會翻一倍。

      而且,未來企業收集的數據並不只是在數量上簡單的增長,同時他們還將收集到許多新類型的數據信息,而這需要大量的數據存儲空間。

      Anthony Jones說:“到那時,醫院可以根據病人的數據信息畫出病人的基金組圖,還可以爲病人定製護理和治療方案。當人們談到大數據時,它涉及到的是巨量數據,而對於企業首席信息官們來說,處理這些數據並不是什麼難事。”

      “如果企業認爲“大數據”只是一個階段性的產物,那麼這些企業將會徹底失去利用數據分析優化企業業務或促進業務增長的機會”,美國賓夕法尼亞州的互動營銷機構Cadient Group的首席技術官Bryan Hill說。

      未來,“大數據”這一術語很可能會發生變化,就像雲計算出現變化一樣,這實際上與Web或者互聯網的變化並無太大區別。雖然“大數據”的術語可能會改變,但是大數據的實質不會改變。

      本文鏈接:http://www.sicklycat.com/product/html/26.html轉載請註明!
      掃描加入
      Copyright © 2015 - 2024 上海多特蒙德中文實業股份有限公司    滬ICP備11027956號