從十一黃金周出行看大數據的準確度
近年來,大數據研發及其應用引起了社會各界的高度關注。大數據基于云計算的數據處理與應用模式,使其能被擷取、管理和處理,并為決策提供依據。因此,全世界范圍內掀起了大數據應用的熱潮。近幾年,大數據被賦予了神一般的能量,好像只要憑借大數據就可以解決一切難題。那事實真是這樣嗎?我們不妨從剛剛結束的十一黃金周來看看大數據在我們生活中的應用問題。
百家爭鳴的十一大數據發布
十一黃金周,終于到了尾聲。而這其中非常值得關注的一件事便是業內巨頭紛紛玩起了十一黃金周大數據。無論是“未堵先知”的路線規劃,還是熱門景區的錯峰出游,甚至是高峰期排長隊的餐館排行榜,企業紛紛用大數據的力量為消費者進行出行提示。各種版本的避堵攻略背后,一場數據能力的PK賽正在上演。
小編專門關注了一下網絡上關于大數據的信息,發現有數家企業發布了相關的大數據報告,呈現出一派百家爭鳴的氣象。早在十一黃金周開始之前,百度與人民網輿情監測室就共同發布了《2016十一出行預測大數據報告》,阿里也聯合滴滴出行聯合發布了《十一出行預測大數據報告》。兩大巨頭紛紛用大數據來預測十一黃金周的走向。黃金周開始之后,易到用車發布的《十一熱門景點出行報告》,百度地圖的路況數據實時監測;攜程旅游對旅游訂單大數據的監測,分別從不同的方向對十一黃金周的數據進行了監測和分析。可以說今年十一黃金周是大數據的應用最蔚為壯觀的一年,這也從側面反應了大數據熱的興起。
有趣的是各家數據竟然互相打架
為人們的出行提供決策的數據依據,數家巨頭紛紛發布自己的大數據報告,如果大家的數據一致的話,無論從哪個方面來說都是一件皆大歡喜普天同慶的事。然而當各家的數據開始打架的時候,這個皆大歡喜似乎就要打上引號了。而這種打架體現得最明顯的就是兩份最權威的預測報告,也就是百度的《2016十一出行預測大數據報告》和阿里的《十一出行預測大數據報告》??梢钥吹?,兩份報告的數據預測大的方向基本是一致的,但是一些細節上存在一定差異。比如說對于熱門景點的預測和出行狀況的預測。
根據百度《報告》的數據,統計出了全國熱門景區景點TOP20,數據顯示最受歡迎的是杭州西湖風景區,其次是北京的奧林匹克公園,排名前五的分別是西湖風景區、奧林匹克公園、外灘、天安門和五臺山風景名勝區。而阿里《報告》的數據,則給出了與百度不同的預測。據阿里《報告》的數據顯示,杭州西湖、北京頤和園和成都的寬窄巷子會成為人數最多的景點。排名前五的分別是杭州西湖、北京頤和園、成都寬窄巷子、嘉興烏鎮和麗江古城。除了排名第一的杭州西湖,其他的數據兩份報告有明顯差異。
對于出行狀況的預測兩者也有一定差異。根據百度《報告》的數據,十一出行時間將會呈現規律性的集中現象。假期頭尾兩天均十分擁堵,假期中間時段路況相對較好。細化到具體時間節點,10月1日8時和10月7日16時的道路擁堵程度最高。而在阿里的《報告》中,假期堵車的預測時間則被提前到了9月30日,據阿里《報告》顯示:9月30日的平均下班時間將提前2個半小時,即從15:00開始進入晚高峰狀態,并一直持續到19:00,兩者的數據呈現明顯差異。當然,我們現在并不是在比較兩份數據誰更為準確,因為根據十一期間的真實數據我們會發現,兩份預測數據都存在一定的偏差,而且糾結于一份過去的數據并沒有太大的意義。我們接下來要討論的是,是什么原因導致了兩份數據的差異?而這種差異能對我們以后依靠大數據進行決策帶來什么啟發?
為何不同的數據報告會有較大差距?
這主要是不同的數據報告其數據來源不同所導致的結果。百度的數據是來自于百度地圖與旗下的各類O2O軟件的數據錄入,而阿里的數據則主要是來自是自己龐大的阿里O2O系與滴滴日常收錄的乘車信息;易到用車的數據則主要來自于其會員的用車出行數據;攜程旅游的數據來源則主要是其平臺上會員的旅游訂單數據。
有一點我們可以非??隙ǖ氖?,以上的幾份報告所獲得的大數據都并不是全面的,基于他們用戶總量不足的原因,他們皆無法獲得足夠全面的數據。我們都知道,數據量的增加有助于減小數據的誤差,可以大大地提高分析的精準度。盡管我們一直說著大數據,但是我們其實并不能得到真正的海量的大數據。因此,抽樣是不可避免的。而且這不僅僅是觀測不到總體數據的問題,即時能夠,我們也并不能去觀測數據總體。比如說,我們要統計一批火柴的點著合格率,不可能把所有火柴都點燃。
同時,歸納演繹法能總結一般規律,卻在偶然事件面前無能為力。一起偶然發生的交通事故就可能造成大數據無法預料的蝴蝶效應,引發大規模的擁堵。這種事故不可預測,其后果也很難提前預知,在國慶節這樣的大車流的情況下,一起這樣的偶然事件足以推翻大數據的預測。
總結:不可神話大數據
實事求是的說,大數據確實能為我們的決策提供預測與參考依據,而且這種參考對我們的決策有著非同一般的意義與價值