項目地址:https://github.com/Daya-Jin/ML_for_learner/blob/master/rule/Apriori.ipynb
原博客:https://daya-jin.github.io/2018/12/30/AssociationRules/
概述
在商場的購物數據中,常??梢钥吹蕉喾N物品同時出現,這背后隱藏著聯合銷售或打包銷售的商機。關聯規則分析(Association Rule Analysis)就是為了發掘購物數據背后的商機而誕生的。
定義一個關聯規則:
其中和
表示的是兩個互斥事件,
稱為前因(antecedent),
稱為后果(consequent),上述關聯規則表示
會導致
。具體地,在購物情形中,表示購買了
的顧客也會購買
,那么商場就可以把
、
放在一起或者是打包銷售。關聯規則的強度可以用它的支持度(support)和置信度(confidence):
可以看出支持度即兩個事件同時發生的概率,置信度即在前因發生的條件下,后果發生的概率。
在選取規則時通常會對這兩個值設一個最低閾值最小支持度和最小置信度
。注意由關聯規則分析得出來的關聯規則并不保證具有因果關系。
項集(itemset)被定義為包含個或多個項的集合,支持度大于閾值
的項集被稱為頻繁項集(frequent itemset),頻繁項集中置信度大于閾值
的規則稱為強規則(strong rule)。關聯規則的目的就是找到頻繁項集與強規則。
由概率出發不難得到關于頻繁項集的一個性質:頻繁項集的所有子集都是頻繁的,即;非頻繁項集的超集都是非頻繁的,即
。這一性質能大大減少搜索頻繁項集時的搜索空間。