[ML筆記] Coursera 機器學習基石(上) Week3

[ML筆記] Coursera 機器學習基石(上) Week3

Coursera 機器學習基石(上) Week3 筆記

本週探討各種不同的機器學習問題

binary classification 是機器學習當中最基本的問題

binary classification：把東西分成兩類

例如辨別是否為垃圾郵件，判斷是否核卡，判斷病人是否生病等

二元分類的延伸：多類別分類問題（多元分類）

例如：飲料販賣機要辨識投入的金額符合哪一種區間，手寫數字辨識，照片辨識等

另一個典型的問題：回歸 (regression) 分析

regressiong 問題的輸出是一個數字

回歸分析的問題例如，股票價格預測，氣溫預測

除了會處理分類與回歸問題，遇到 input 是一個句子時，我們必須要分析他的詞性，才能找出這個句子文法是否是正確的，處理這類具有結構化的問題 → Structure Learning

複雜的延伸應用問題，最根本的還是從 classification 跟 regression 出發！

監督式 v.s. 非監督式學習

監督式：Data 當中給明確的分群答案，去做分群的訓練

非監督式：只有 Data 沒有給分群答案，讓我們設計演算法自動依據資料的特性去分群

其他分群問題

outlier detection 常見應用：偵測異常事件出現

半監督式問題：只給部分答案

例如照片辨識，只標出少量已知資料，並將大量的未知資料跟已知的比較，拿去分類

增強式學習：

例如訓練寵物：

輸入指令

輸出做對的話給獎勵，做錯的話給懲罰！

Batch 成批的大量資料餵進去訓練

Online Learning 每一輪輸入進去的資料，都可以改善我們的 function

例如垃圾郵件過濾系統，我們每次將不想要的信件歸類在垃圾郵件中，判斷系統就會同步更新他的垃圾郵件判別策略

比較三種 Learning 方式

Batch：填鴨式學習，一次把很多資料一批塞進去學習

Online：有點像是老師一步一步帶習題

Active：讓機器學會問問題，這個可以應用在 Label 資料很貴的情境上

目前所關注的都是機器學習輸出端的面向

機器學習輸入端的變化：

Concrete 資料視具體的，例如信用卡的申請書

可以使用具體的 data 直接算個總分

具體的 feature 例如 size mass 等

針對手寫數字辨識的問題

具體的特徵：數字是否對稱

較為抽象的 feature ：直接把整張照片 pixel 變成一個 array input

針對抽象的 feature 我們會透過各式各樣的方法，把它具體化

所以從 input 端來看機器學習，分為：

concrete 具體的 feature input

raw 未經處理的 raw data 例如一張圖片的所有 pixel 點，一串聲音訊號

abstract 抽象的資料，需先擷取 feature 整理後才能用

以上內容出處：Coursera 課程網站
https://www.coursera.org/learn/ntumlone-mathematicalfoundations/home/welcome

其他參考資料： Fukuball 大大的筆記
http://blog.fukuball.com/lin-xuan-tian-jiao-shou-ji-qi-xue-xi-ji-shi-machine-learning-foundations-di-san-jiang-xue-xi-bi-ji/

留言