593-955期

【864專論】在大數據時代的數據挖掘-4

大數據的應用案例 了解了大數據的思維變革後,以下我們說明兩個大數據的應用案例。基本上,大數據下的應用,不需要完全符合大數據的4項特點,僅需符合1項以上即可。 一、基於大數據的移動智慧(Volume + Velocity + Veracity) 移動智慧是大數據時代的一項重要應用。因此,2012年國際手機製造大廠Nokia提供了手機持有人的移動數據,並針對這個數據舉辦了世界移動分析大賽(Mobile Data Challenge; MDC)(http://research.nokia.com/page/12000)。在這個比賽中,Nokia提供了手機持有人的個人資訊(Personal Information)、手機本身的資訊(Device Information)、手機持有人的社群資訊(Social Information)以及手機持有人的定位資訊(Location Information),如圖3所示。

這項比賽分成3個部分進行: A.預測手機持有人的個人基本屬性(Demographic Attribute Prediction):預測手機持有人的性別(Gender)、年齡層(Age Group)、婚姻狀態(Marital Status)、工作類型(Job Type)等。圖4是這部分比賽的優勝隊伍對手機持有人性別的預測示意圖。此隊伍成功地運用手機本身的三軸加速器(Accelerometer)資訊來準確的預測手機持有人的性別。他們研究發現,一般男生持有手機時大多放在口袋,而女生大多放在包包中。所以,男生持有手機時,在Z軸上的加速度,相較於女生,會有較大起伏的變異。

B.預測手機持有人目前所在的地點(Semantic Place Prediction):地點則共分成10類,包括度假(Holiday Resort or Vacation Spot)、家(Home)、 朋友家(Home of a Friend)、交通工具(Location Related to Transportation)、工作場所/學校(My Workplace/School)、室內運動(Place for Indoor Sports)、 室外運動(Place for Outdoor Sports)、餐廳或酒吧(Restaurant or Bar)、商店或購物中心(Shop or Shopping Center)、朋友的工作場所/學校(The Workplace/School of a Friend)。 C.預測手機持有人下一個會去的位置(Next Place Prediction):圖5是對手機持有人下一個會去的地點的預測示意圖。當一個手機持有人從位置A走到位置B時,需預測手機持有人下一個可能會去的位置(A, C, D, E, F, G, H)的機率,以方便進行行銷活動。 二、基於大數據的潛在民意分析(Volume + Variety + Veracity) 數據挖掘(Data Mining)能根據客戶過去的行動來預測客戶未來的行為,提供企業主管在做決策時所需的資訊。然而,數據挖掘所處理的資料大多為資料庫中的結構化資料。對於非結構化資料的知識發掘,則需仰賴文字挖掘(Text Mining)技術。由於文字資料的大量普及,使得文字挖掘的重要性逐漸增加。

舉例來說,香港政府就利用文字挖掘來快速了解民眾的問題及意見,釐清特定問題的原因及重要性程度,以便能更快速的回應民眾的需求,提升政府的服務品質。 人民的聲音通常來自於很多管道(包含民意信箱、新聞媒體、部落格、服務專線、網站留言區及許多的社群網站)等。 要能迅速的掌握民意,就必須利用文字挖掘的技術,快速的分析這些不同來源的文字資料,並轉換為政府決策者所關心的施政問題來達成。而這些通常是人力(香港政府每年收到約265萬的投訴來電以及98,000個投訴電郵)所無法快速達成的。 香港政府透過文字探勘的技術,迅速將數以百萬的投訴文件,轉換為可供決策的知識,除了能降低民怨外(95%之投訴能即時獲得解答),更能充分展現政府的行政效率(民眾滿意度、未處理來電比率與首次來電即獲解答比率等報表製作時間由幾個星期縮短至1至2日),實為一舉兩得。此外,透過視覺化的呈現方式(如圖6所示),行政首長即可從KPI的指標中迅速發掘政府在市民的服務品質正在迅速下降中。

點選KPI的指標後,則可呈現服務品質下降的原因來自於旺角地區的垃圾及環境衛生問題所致。再進一步點選此問題後則可發現,原來環境問題最大的來源來自於旺角地區的一個後巷,後巷又跟大廈、出入口等詞有相當之關聯性。經查證後發現,原來旺角某大廈後巷,白天淪為攤販聚集之所,造成出入口睹塞及嚴重衛生問題,因而引發民眾的強烈不滿。

發佈留言