[ML筆記] Coursera 機器學習基石(上) Week1

Coursera 機器學習基石(上) Week1 筆記


機器學習適合用來解決什麼問題?
有 Pattern 但是 Pattern 過於複雜,不容易用 Rule based 解掉
有明確的問題目標
有 Data !


以電影推薦系統來舉例說明
對於電影的屬性維度可能有,影片種類,出現哪些明星,影片片長等
根據 user 過去喜歡看的電影的特型,可以得到該 user 的喜愛特性分佈
針對一部電影的屬性做完分析後,可以使用 inner product 內積計算跟使用者的配對分數


Machine Learning 的 Model
一切都從資料開始!
D: data  
f: 真實世界中的運行規則,是我們要解決問題的目標
H: 假設
A: 演算法
g: 我們根據假設H 透過資料D 與 方法A 所得到逼近我們的目標 f 的函式  
以使用者辦信用卡的評估系統為例
以下舉例可能有的假設
h1: 該使用者年收入大於 80 萬就核卡
h2: 該使用者如果有龐大的債務,就核準辦卡 (屬於比較容易花錢的類型)
h3: 該使用者是新鮮人,剛工作不到兩年 (可能是比較愛花錢型)


但是真實世界中,會辦信用卡的情況只有上帝知道,狀況非常的複雜,所以我們要透過過往的
辦卡資料與還款紀錄,透過 ML 的方法來找出一個策略 g ,盡量讓我們的 g 逼近真實情況
隨堂練習:以下是個音樂推薦系統,試著定義出 X (input), Y (output), D (Data), H (假設)




Machine Learning 與 Data mining,AI 以及統計學的比較
Data mining 輸入大量資料,試著找出資料當中,哪個屬性跟哪個屬性之間有相互影響的關係
基本上 Data mining 與 ML 是相輔相成的,只是 ML 的重點是在於找到一個 function g 試圖去逼近真實世界難以用簡單方法處理的目標函數 f
而 Data Mining 大多在是資料庫上進行,所以這塊領域還有一部分是在探討資料庫方面的優化


AI 的目標是,讓電腦能夠表現得聰明
ML 則是實現 AI 的其中一種手段
當然 AI 很多有別於 ML 其他不同的方法,例如決策樹


統計學是在做假設推論,從數據上推論驗證我們的假設
所以統計學可做為 ML 的一個重要的分析工具



以上內容出處:Coursera 課程網站
https://www.coursera.org/learn/ntumlone-mathematicalfoundations/home/welcome

其他參考資料: Fukuball 大大的筆記
http://blog.fukuball.com/machine-learning-foundations-by-lin-xuan-tian-di-jiang-xue-xi-bi-ji/

留言

這個網誌中的熱門文章

[筆記] CRLF跟LF之區別 --- 隱形的 bug

[ML筆記] Batch Normalization

[筆記] 統計實習(1) SAS 基礎用法 (匯入資料並另存SAS新檔,SUBSTR,計算總和與平均,BMI)

[ML筆記] Ensemble - Bagging, Boosting & Stacking