593-955期

【864專論】在大數據時代的數據挖掘-3

大數據時代的思維變革 大數據是一個概念。但它除了大之外,是否還有其它思維變革。基本上,專家學者們已整理出大數據的4大特點。 一、Volume(巨量性) 過去由於數據的收集不是那麼容易,因此常常需要利用問卷調查的方式取得數據,然後再藉由所取得的隨機樣本數據,來推估整個母體(全體數據)的表現。但在大數據全面互聯、全面融合、全面感知、訊捷通信的網路技術下,現今我們所取得的海量數據可以視為就是母體的巨量數據。 二、Variety(多樣性) 以往所收集的數據,尤其是問卷數據,資料型態通常是比較單純的結構化數據(有事先定義好要問卷的欄位及資料型態)。但在大數據下,現今我們所取得的海量數據,其資料型態較為繁雜。除傳統的結構化數據外,還包含大量非結構化的文本數據(Text Data)。根據統計,20%的數據是結構化數據,其餘80%的數據是非結構化的文本數據。因此,在大數據下我們常常需要整合不同的數據來源及型態才能共同完成一項分析的任務。 三、Velocity(即時性) 在大數據下的數據是流動中的即時串流數據,而智慧型系統的反應時間僅能有短短幾秒到百萬分之一秒。數據分析的工作不再是離線處理,而必需是即時的線上處理。 四、Veracity(不確定性) 在大數據下的數據是常因數據的不一致、時間差、意義不明、蓄意欺騙等而導致的不確定其正確性。因此,資料來源的控管問題也將是大數據時代需考慮的一項重點因素。以避免Garbage In Garbage Out的分析結果。

發佈留言