只要會import 你也是資料科學家: 資料採礦流程

(本篇文章為理論基礎)

在之前的幾篇文中
有一些同學問到: 當我們拿到資料時有什麼明確的分析流程或方法嗎?
而這個問題的答案是: 當然!!
這篇文章就是要跟大家介紹這個流程
資料採礦流程 CRISP-DM (cross-industry standard process for data mining)

這就是資料採礦流程的整體

可以分為6個部分

分別是: 業務理解、資料理解、資料準備、建模、評估以及實施

接著一步一步來介紹吧

首先是第一部分

在做資料分析之前要先完成這兩件事

業務了解及資料了解

而我也認為這是最困難的一部分

資料分析一直都是為了解決實務問題而存在的

而有無足夠了解業務的business insight(也就是以前所說的domain knowledge)

來將此應用的資料分析的領域中

而在這之中也會了解到需要蒐集那些資料以及那些資料個別的特性

舉例而言:

若想分析一間超市的銷售

必須得先了解超市目前大致的營運狀況以及銷售所需學習的行銷、廣告等資訊

而了解這些後意識到需要蒐集某些特定商品的資訊客人的資訊

如何低成本卻有效率地搜集是很重要的

接著是第二部分:

資料準備及建模

上述說道了解業務及資料是很重要的

因為蒐集大量的資料是非常昂貴且需要付出很多代價的

所以能否以最有效率的方式蒐集在資料分析是非常重要的一環

而在這裡就是要利用之前的步驟開始蒐集資料

舉例而言:

可以利用發問卷、會員資料、花錢找市調公司等方式獲得資料

獲得資料後就可以利用我在這個blog所分享的各式各樣方法建模分析囉

最後是這一部分:

評估及實施

在評估階段時我們可能會運用不同的統計方法檢定

像是之前所提過的t檢定

或是未來可能會提的F檢定、AIC、SBC

也可能是人為主動去認定像是overfitting, 相關結果太尋常或太不尋常等

這一步也是非常仰賴經驗的

舉例而言在跑相關性時跑出的結果若為:

(1)買義大利麵的人會買義大利麵醬這樣的結果太平常可能沒什麼用

(2)買牛奶的人會買汽車看起來又太不合常理

那應該什麼樣的結果才是能被運用的呢?

這就需要有經驗的人來評估了~

最後若是評估的結果不可行

就需要重頭來過從了解業務開始

而若是評估的結果可行

就可以順利將其實施啦~

所以今天學到的有：

了解資料採礦方法中的各個部分

這是新的主題有什麼需要改進的地方可以跟我多聊聊喔

未來也會繼續分享各個資料分析的實例~

只要會import 你也是資料科學家

2018年11月8日星期四

資料採礦流程

1 則留言:

Google Code Prettify

2018年11月8日 星期四

資料採礦流程

1 則留言:

Google Code Prettify

2018年11月8日星期四