593-955期

【864專論】在大數據時代的數據挖掘-1

兩年前在討論大數據(Big Data)時代的來臨時,大數據還只是個專業小圈子裡探討的話題。但隨著智慧型手機(Smart Phone)、社群媒體(Social Media)及雲端運算(Cloud Computing)的盛行,大數據這個概念已經在學術界、產業界及大眾媒體上,沸沸揚揚地廣為傳播。 在台灣,東吳大學也於2013年7月17日召開記者會成立校級「海量資料分析研究中心」,強調結合資訊、管理、雲端運算、資料倉儲的跨學門領域,藉此培養未來人才,為競爭激烈的就業市場開闢另一片新藍海。大數據將如同綠色節能一樣,是未來幾年學術界及產業界的必然趨勢。本文將介紹在大數據時代數據挖掘(Data Mining)的思維變革及其應用。 為何會形成大數據 大數據的形成來自於無所不在的數據以及人們無時無刻對智慧型系統的強烈需求。為了能有效地運用醫療資源,我們需要居家智慧系統;為了能有效地擴展電子商務的商機,我們需要移動智慧系統;為了能有效地改善及運用交通資源,我們需要處所智慧系統;為了能有效地掌握客戶對金融商品的喜好以及監控客戶的信用風險,我們需要金融智慧系統。 為了滿足人們無時無刻對智慧型系統的強烈需求,因此,相關的技術(智慧醫療、智慧商務、智慧交通、智慧金融、智慧XX等)就陸陸續續地被開發出來。為了能搭配這些智慧型技術,全面互聯、全面融合、全面感知、訊捷通信的網路技術也需與時俱進的研發出來。終端技術與開發及網路技術的關聯圖,如圖1所示。

在這些先進的網路技術下,任何人的任何行為都能產生大數據。你每次的信用卡刷卡,你用悠遊卡去搭乘交通工具,你用手機打電話,用手機查資訊,甚至你走在台北街上都會被監視器或是手機的衛星定位系統記錄下來。根據IDC的統計,全球每年約產生270,000PB的資料量(http://www.abs.yahoo.com/files/ 12GibbonsWhereitisat.pdf)。1PB=1,000TB=1,000,000GB,如圖2所示。

發佈留言