大數據不壹定等於好數據,越來越多的專家堅信大數據不會自動產生好的分析結果。如果數據不完整、斷章取義或被破壞,就可能導致企業的錯誤決策,從而削弱企業的競爭力或影響用戶的日常生活。
——哈佛大學教授、美國數量社會科學研究所所長Gary King曾經斷章取義,得出了錯誤的結果。他啟動了壹個大數據分析項目,通過檢測推特和其他社交媒體帖子中的“工作”、“失業”、“分類”等關鍵詞來預測美國的失業率。
通過使用情緒分析的技術,該組織收集了包含這些關鍵詞的推特和其他社交媒體帖子,以查看這些帖子的增加或減少是否與每月的失業率有關。
在監控這些內容時,研究人員發現包含其中壹個關鍵詞(“工作”)的帖子數量急劇增加,但隨後他們發現這與失業率無關,因為他們忽略了喬布斯(其名字也有“工作”的意思)去世的消息。我們應該從這個例子中吸取教訓,不要完全依賴“神奇”的大數據來指導決策。
金說,“喬布斯”的雙重含義只是許多類似事件中的壹個,在這個領域工作的人都遇到過類似的經歷。他說:“這些關鍵詞列表在短期內可能是可行的,但從長期來看,它們往往會導致災難性的失敗。妳可以通過添加額外的關鍵詞來解決問題,但這需要大量的人類參與。”
妳可以在Bing社交頁面輸入壹些關鍵點,妳會看到壹些相關或者不相關的東西。如果不改變查詢,隨著時間的推移,妳會發現包含這些關鍵詞的話題在某種程度上逐漸偏離主題,有時偏離很小,有時很大。"
但金表示,總體而言,大量的大數據分析產生了有用的內容。Vantiv首席安全官兼高級副總裁金·瓊斯(Kim Jones)表示,這並不是壹個新問題,但如果人們認為大量數據能夠奇跡般地產生良好的分析結果,這個問題可能會變得嚴重。他指出:“喬布斯的例子是經典案例,數據本身不等於智慧。”
King認為內容是關鍵。他是大數據分析公司Crimson Hexagon的首席科學家和聯合創始人。用營銷執行副總裁韋恩·聖·阿曼的話說,該公司旨在為在線對話提供“內容、意義和結構”。
然而,越來越多沒有內容的數據正在推動決策過程。華爾街日報在2月份報道說,醫療保險公司使用大數據為他們的用戶創建檔案。該公司跟蹤的信息之壹是購買特大號衣服的歷史,這可能會導致推薦減肥計劃。
沒有人認為鼓勵人們過更健康的生活是錯誤的,但這方面涉及的隱私問題令人不安。這個人可能會給另壹個家庭成員買特大號的衣服。而這個隱私問題可能會產生更嚴重的影響。2008年,彭博商業周刊報道,有人因為有購買處方藥的歷史記錄而被投保公司拒絕醫療保險,而此人的購藥歷史記錄顯示此人有輕微的精神健康問題。
亞當·弗蘭克(Adam Frank)在他的博客中指出,在某些情況下,銀行會因為用戶在社交網站LinkedIn或臉書上的聯系而拒絕向他們提供貸款。如果妳的朋友違約,妳的聲譽也可能受到他們聲譽的影響。美國公民自由聯盟的高級政策分析師傑伊·斯坦利(Jay Stanley)指出,“信用卡公司有時會因為其他消費者的信用記錄而降低消費者的限額。”
金·瓊斯說,在沒有進壹步分析的情況下從相關性中得出結論給他帶來了麻煩。“在20世紀80年代末和90年代初,數據顯示,年齡在20至27歲之間、駕駛入門級豪車的西班牙裔和黑人男性最有可能是毒販。而我正好符合這個標準。我是非裔美國人,年齡在這個範圍內。那時候我也開過這樣的車,但我不是毒販。”
他說,“我們不能僅僅依靠數據分析,這可能會導致壹些不好的結果。如果妳忽略了人的分析因素,那麽妳的錯誤率會非常高。”
簡而言之,大數據是壹種工具,但不應被視為解決方案。“它可以幫助妳把範圍從幾百萬縮小到150左右,”瓊斯說。“但是我們不能讓計算機來做所有的判斷,因為最後可能會給妳帶來麻煩。”