[ML筆記] Coursera 機器學習基石(上) Week3

Coursera 機器學習基石(上) Week3 筆記


本週探討各種不同的機器學習問題




 binary classification 是機器學習當中最基本的問題
binary classification:把東西分成兩類
例如 辨別是否為垃圾郵件,判斷是否核卡,判斷病人是否生病等



二元分類的延伸:多類別分類問題(多元分類)
例如:飲料販賣機要辨識投入的金額符合哪一種區間,手寫數字辨識,照片辨識等


另一個典型的問題:回歸 (regression) 分析
regressiong 問題的輸出是一個數字


回歸分析的問題例如,股票價格預測,氣溫預測


除了會處理分類與回歸問題,遇到 input 是一個句子時,我們必須要分析他的詞性,才能找出這個句子文法是否是正確的,處理這類具有結構化的問題 → Structure Learning


複雜的延伸應用問題,最根本的還是從 classification 跟 regression 出發!




監督式 v.s. 非監督式學習
監督式:Data 當中給明確的分群答案,去做分群的訓練
非監督式:只有 Data 沒有給分群答案,讓我們設計演算法自動依據資料的特性去分群


其他分群問題


outlier detection 常見應用:偵測異常事件出現


半監督式問題:只給部分答案
例如照片辨識,只標出少量已知資料,並將大量的未知資料跟已知的比較,拿去分類




增強式學習:
例如訓練寵物:
輸入 指令
輸出 做對的話給獎勵,做錯的話給懲罰!


Batch 成批的大量資料餵進去訓練


Online Learning 每一輪輸入進去的資料,都可以改善我們的 function
例如垃圾郵件過濾系統,我們每次將不想要的信件歸類在垃圾郵件中,判斷系統就會同步更新他的垃圾郵件判別策略


比較三種 Learning 方式
Batch:填鴨式學習,一次把很多資料一批塞進去學習
Online:有點像是老師一步一步帶習題
Active:讓機器學會問問題,這個可以應用在 Label 資料很貴的情境上

目前所關注的都是機器學習輸出端的面向

機器學習輸入端的變化:
Concrete 資料視具體的,例如信用卡的申請書
可以使用具體的 data 直接算個總分


具體的 feature 例如 size mass 等


針對手寫數字辨識的問題
具體的特徵:數字是否對稱
較為抽象的 feature :直接把整張照片 pixel 變成一個 array input
針對抽象的 feature 我們會透過各式各樣的方法,把它具體化




所以從 input 端來看機器學習,分為:
concrete  具體的 feature input
raw 未經處理的 raw data 例如一張圖片的所有 pixel 點,一串聲音訊號
abstract 抽象的資料,需先擷取 feature 整理後才能用





留言

這個網誌中的熱門文章

[筆記] CRLF跟LF之區別 --- 隱形的 bug

[ML筆記] Batch Normalization

[筆記] 統計實習(1) SAS 基礎用法 (匯入資料並另存SAS新檔,SUBSTR,計算總和與平均,BMI)

[ML筆記] Ensemble - Bagging, Boosting & Stacking