2018年11月8日 星期四

資料採礦流程

(本篇文章為理論基礎)

在之前的幾篇文中
有一些同學問到: 當我們拿到資料時 有什麼明確的分析流程或方法嗎?
而這個問題的答案是: 當然!!
這篇文章就是要跟大家介紹這個流程
資料採礦流程 CRISP-DM (cross-industry standard process for data mining)



這就是資料採礦流程的整體
可以分為6個部分
分別是: 業務理解、資料理解、資料準備、建模、評估以及實施
接著一步一步來介紹吧

首先是第一部分
在做資料分析之前要先完成這兩件事
業務了解及資料了解
而我也認為這是最困難的一部分

資料分析一直都是為了解決實務問題而存在的
而有無足夠了解業務的business insight(也就是以前所說的domain knowledge)
來將此應用的資料分析的領域中
而在這之中也會了解到需要蒐集那些資料 以及那些資料個別的特性

舉例而言:
若想分析一間超市的銷售
必須得先了解超市目前大致的營運狀況 以及銷售所需學習的行銷、廣告等資訊
而了解這些後意識到需要蒐集某些特定商品的資訊 客人的資訊
如何低成本卻有效率地搜集是很重要的

接著是第二部分:
資料準備及建模
上述說道了解業務及資料是很重要的
因為蒐集大量的資料是非常昂貴且需要付出很多代價的
所以能否以最有效率的方式蒐集在資料分析是非常重要的一環

而在這裡就是要利用之前的步驟開始蒐集資料
舉例而言:
可以利用發問卷、會員資料、花錢找市調公司等方式獲得資料
獲得資料後就可以利用我在這個blog所分享的各式各樣方法建模分析囉

最後是這一部分:
評估及實施

在評估階段時 我們可能會運用不同的統計方法檢定
像是之前所提過的t檢定
或是未來可能會提的F檢定、AIC、SBC
也可能是人為主動去認定 像是overfitting, 相關結果太尋常或太不尋常等

這一步也是非常仰賴經驗的
舉例而言 在跑相關性時 跑出的結果若為:
(1)買義大利麵的人會買義大利麵醬 這樣的結果太平常可能沒什麼用
(2)買牛奶的人會買汽車 看起來又太不合常理

那應該什麼樣的結果才是能被運用的呢?
這就需要有經驗的人來評估了~

最後若是評估的結果不可行
就需要重頭來過 從了解業務開始
而若是評估的結果可行
就可以順利將其實施啦~

所以今天學到的有:
了解資料採礦方法中的各個部分

這是新的主題 有什麼需要改進的地方可以跟我多聊聊喔
未來也會繼續分享各個資料分析的實例~

1 則留言: