CRISP-DM分為六個階段(Phase),分別簡介如下: 一、定義商業問題(Business Understanding) 本階段的主要工作是要針對企業所遭遇到的問題以及企業的需求進行瞭解及確認,並將其轉換成資料探勘的問題,並擬定初步構想。此階段需與企業充分地進行討論,才可正確的針對問題,擬定分析的方法。 二、資料理解(Data Understanding) 定義完問題後,接下來我們需要瞭解目前所能取得之資料的內涵與特性。然後,選擇要進行此次資料探勘專案所需的資料,接著進行資料的整理及評估資料的品質。必要時還需將分屬不同資料庫的資料加以合併及整合。 三、資料前處理(Data Preparation) 整理及評估資料的品質後,接下來我們需要根據不同欄位的資料品質,進行不同的資料前處理方式。此外,我們也可在此階段,利用目前既有的欄位,產生許多跟專案分析目的相關的衍生性欄位(例如,利用生日產生衍生性欄位年齡,以分析不同的年齡層和本專案目的之間的關係)。基本上,資料前處理的工作並沒有固定的處理方式,通常需要執行多次,直到有好的探勘結果為止。 四、建立模型(Modeling) 資料前處理後,我們可以假設資料的正確性及完整性已經完備。接下來應用各種資料探勘的技術,針對已整理及擴充完成的資料,即可建構出適當的資料探勘模型,替企業解決商業問題。在建模的過程中,若發現資料的正確性及完整性有問題,則可退回到前一個步驟(資料前處理),以確保資料的品質及完整。 五、評估及解讀(Evaluation) 模型建立後,接下來就是模型的評估及解讀。基本上,模型評估的方式應與企業專案的目標有關。例如,若是銷售商品,一個好的模型應是能夠幫公司獲利最高的模型,而非正確率最高的模型;若是評估風險,一個好的模型應是能夠讓公司損失最少的模型,而非正確率最高的模型。此外,一個好的模型其解讀的結果應是符合領域專家所預期的。若模型解讀的結果與專家的領域知識相違背或無法解讀的話,這個模型則是一個無法使用的模型,應從頭查明發生偏差之原因,並重新建模、評估及解讀。 六、實施(Deployment) 經過評估及解讀後,若模型的效能預期能夠達到專案的目標,同時模型的解讀結果符合專家的預期,則此模型便可上線做新資料的預測,同時追蹤及監控模型實際上線執行後的成效。

發佈留言