Machine Learning Week9 : Anomaly Detection & Recommender Systems
GMM - 混合高斯模型算法
Anomaly Detection
1. density estimation(密度估計)
1.1 概率模型
1.2 Gaussian Distribution【Normal distribution】
1.3 Algorithm
對不同的特征,獨立分布
2. Building an anomaly detection system
2.1 Developing and evaluating an anomaly detection system
2.2 Anomaly Detection vs Supervised Laerning
2.3 Choosing what features to use
某一特征的直方圖(hist)
看起來像高斯分布,可以直接加入作為輸入特征;有偏鋒的可以嘗試使用log(x+c)、x.^c等。
從判斷錯誤的樣本中觀察是否可加入新的特征
3. Multivariate Gaussian Distribution(多元高斯分布)
3.1 Multivariate Gaussian Distribution
3.2 Anomaly Detection using the Multivariate Gaussian Distribution
Original model 計算量較小,在m較少時也適用;MGD能自動捕捉特征間的相關性,n越大計算量越大,一般在m遠大于n時可以考慮。
(很少出現此情況)當MGD的Sigma是奇異矩陣時(不存在逆),可能是 m>n 或者 在特征中存在重復或冗余的特征。
Recommender Systems
1. Predicting Movie Ratings
1.1 Problem Formulation
1.2 Content Based Recommendations
n=2表示電影有兩個特征,預測用戶對電影的評分。
2. Collaborative Filtering(協同過濾)
2.1 Collaborative Filtering
協同過濾自行學習需要使用的特征
2.2 Collaborative Filtering Algorithm
合并上述兩個J(),此時不需要x0=1這個固定的特征值(同時不需要θ0),因為如果系統需要一個永遠為1的特征值,會在算法運行中自動調整得出。
3. Low Rank Matrix Factorization
3.1 Vectorization : Low Rank Matrix Factorization
3.2 Implementation Detail : Mean Normalization