@[toc]
0.1 introduction介紹
- 高通量技術導致數據維度以及樣本數量呈指數增長,使得對數據集進行手動處理顯得不太實際。但是由于收集數據的技術不完善或者數據本身來源的性質,導致數據噪聲。因此如何從龐大而嘈雜的數據集中提取有用的知識是一項艱巨的任務。
-
降維是一種可以消除噪聲和冗余屬性(特征)的技術。降維技術可以分為特征提?。╢eature extraction)和特征選擇(feature selection)。
-
特征提取:特征被投影到一個新的低維空間。
常見的特征提取技術有:PCA、LDA、SVD。(Principle Component Analysis ,Linear Discriminant Analysis ,Singular Value Decomposition) -
特征選擇:從特征中選出一個子集來最小化冗余和最大化與目標的相關性。
常用的特征選擇方法有:Information Gain信息增益,Relief,Chi Squares,Fisher Score,Lasso。
-
特征提取:特征被投影到一個新的低維空間。
- 特征提取和特征選擇方法都能提高學習性能,降低計算開銷并獲得更加泛化的模型。但是特征選擇優于特征提取,因為特征選擇有更好的可讀性和可解釋性,因為它仍然保持原來的特征,只是去掉了一些認為冗余的。而特征提取將特征從原始空間映射到新的低維空間,得到的轉換的特征沒有物理含義。
- 特征選擇被分為四種類型:
- filter model
- wrapper model
- embedded model
- hybrid model
- 特征選擇選擇能夠區分不同類樣本的特征。監督學習中,將帶標簽的樣本作為訓練集以選擇特征,如果
和
高度相關,則稱 特征
與 類
相關。無監督學習中相關性就比較難定義,但是特征選擇可以類似于改進監督學習的方式改進無監督學習。最常用的無監督學習的方法是聚類,通過最大化類內相似性,最小化類間相似性得到不同的簇。利用特征選擇使用好的特征子集可以幫助聚類產生好的結果并且可以大幅降低計算開銷。
0.1.1 Data Clustering 聚類
- 數據量太大,人工做標簽非常困難。通常用聚類的方式進行數據標記。在聚類中,給出未標記的數據,將類似的樣本放在一個簇中,不同的樣本應該在不同的簇中。
- 聚類在很多機器學習和數據挖掘任務中很有用,如:圖像分割,信息檢索,模式識別,模式分類,網絡分析等。它可以被視為探索性任務或預處理步驟。如果目標是探索和揭示數據中隱藏的模式,那么聚類本身就是一個獨立的探索任務。但是,如果生成的聚類結果將用于促進另一個數據挖掘或機器學習任務,則在這種情況下,集群將是預處理步驟。
- 有許多聚類方法。這些方法可以大致分為:
- 分區方法
- 使用基于距離的度量來基于它們的相似性對點進行聚類。 K-means和k-medoids是流行的分區算法。
- 分層方法
- 分層方法將數據劃分為不同級別,形成層次結構。這種聚類有助于數據可視化和摘要。分層聚類可以以自下而上(agglomerative匯聚)方式或自上而下(divisive分裂)方式進行。這種類型的聚類的例子是BIRCH,Chameleon,AGNES,DIANA。
- 基于密度的方法
- 與這兩種聚類技術不同,基于密度的聚類可以捕獲任意形狀的聚類,例如S形。密集區域中的數據點將形成簇,而來自不同簇的數據點將由低密度區域分開。 DBSCAN和OPTICS是基于密度的聚類方法的流行示例。
- 分區方法
0.1.2 Feature Selection Models 特征選擇
- 高維數據的維度之咒,使得降維非常重要。特征選擇是降維的一種重要手段。
- 特征選擇是根據某些相關性評估標準,從原始特征中選擇一小部分相關特征,這通常會帶來更好的學習性能,例如:更高的學習準確性,更低的計算成本和更好的模型可解釋性。特征選擇已成功應用于許多實際應用,如模式識別,文本分類,圖像處理,生物信息學等。
- 特征選擇的分類
- 1、根據是否使用標簽,可以分為無監督、半監督、有監督算法。
- 2、根據不同的選擇策略,特征選擇算法可以分為:
-
Filter模型
- 獨立于任何分類器,通過使用某些統計標準研究特征的相關性來評估特征的相關性。
- Relief [59],Fisher score[16],CFS [24]和FCBF [76]是Filter模型中最具代表性的算法。
-
Wrapper模型
- 利用分類器作為選擇標準,使用給定的分類器選擇一組具有最大判別力的特征,例如:SVM,KNN等。
- 例子有FSSEM[17],
SVM。Wrapper模型的其他示例可以是優先搜索策略和給定分類器的任何組合。
- 由于Wrapper模型依賴于給定的分類器,因此評估過程中通常需要交叉驗證。它們通常在計算上更昂貴并且依賴選擇的分類器。因此實際應用中,Filter模型更受歡迎,特別是對大型數據集的問題。但經驗證明,Wrapper模型在分類精度方面優于Filter模型。
-
Hybrid模型
- 混合模型[13,40]被提出來彌補Filter和Wrapper模型之間的差距。首先,它結合了統計標準,如Filter模型那樣,選出幾個給定基數的候選特征子集。然后,從中選擇具有最高分類精度的子集[40]。因此,混合模型通??梢詫崿F與Wrapper相當的精確度和與Filter模型相當的效率。
- 混合模型的代表性特征選擇算法包括:BBHFS [13],HGA [53]。
-
Embedded模型
- Embedded模型在學習時間內執行特征選擇。換句話說,它同時實現了模型訓練和特征選擇。
- Embedded模型的例子包括:C4.5 [54],BlogReg [21]和SBMLR [21]。
-
Filter模型
- 特征選擇的輸出:
-
1)子集選擇
- 返回選擇的子集,通過特征的索引標識。
-
2)特征加權
- 返回對應每個特征的權重。
- 特征加權被認為是特征選擇的推廣。在特征選擇中,為特征分配二進制權重,1表示選擇特征,0表示不選擇。而特征加權為特征分配一個值,通常在區間[0,1]或[-1,1]中。該值越大,該特征就越顯著。在特征相關性得分不同的任務中,特征加權被發現優于特征選擇,這在大多數現實問題中都是如此。如果設置閾值來根據權重選擇特征,則特征加權也可以簡化為特征選擇。因此,本章中提到的大多數特征選擇算法都可以使用特征加權方案來考慮。
-
3)子集選擇和特征加權
- 返回一個排好序的特征子集。
-
1)子集選擇
- 特征選擇步驟:
- 1)子集生成
- 2)子集評估
- 3)停止標準
- 4)結果驗證
- 首先基于給定的搜索策略來選擇候選特征子集 ;這些子集在第二步驟中根據某個評估標準被評估; 將從滿足停止標準之后的所有候選中選擇最佳子集; 最后,使用領域知識或驗證集來驗證所選擇的子集。
0.1.3 Feature Selection for Clustering 聚類的特征選擇
- 從聚類的角度來看,刪除不相關的特征不會對聚類準確性產生負面影響,且可以減少所需的存儲和計算時間。
圖2表示可以區分出兩個簇,而
和
不能區分((b)中
方向上藍色紅色都從0到1都有分布,故
無法區分;而
方向上藍色分布在2-3,紅色分布在4-5,所以可以區分。),所以
和
不會向聚類添加任何重要信息,刪除也不會影響聚類。
在這里插入圖片描述 -
相關特征的不同子集可能導致不同的聚類
圖3(a)顯示了利用特征和
形成的的四個簇,而圖3(b)顯示了僅使用
形成了兩個簇。類似地,( c )顯示了僅使用
形成了兩個簇。因此,相關特征的不同子集可能導致不同的聚類,這極大地幫助發現數據中的不同隱藏模式。
在這里插入圖片描述
受這些事實的啟發,提出了很多不同的聚類技術,通過利用特征選擇方法消除不相關和冗余的特征,同時保留相關特征,以提高聚類效率和質量。后面我們將描述基于域的不同的特征選擇聚類(FSC)方法。介紹:傳統FSC,文本數據中的FSC,流數據中的FSC和FSC鏈接數據。
與監督學習的特征選擇類似,用于聚類的特征選擇也被分類為Filter[15]、Wrapper[55]、Hybrid[19]。
- Wrapper模型通過聚類質量評估候選特征子集。
- Filter模型獨立于聚類算法。Filter模型在計算時間方面更好,并且對任何聚類方法都是無偏的。但是如果我們事先知道聚類方法,Wrapper模型產生更好的聚類。
- 為減輕Wrapper模型的計算成本,利用過濾標準來選擇Hybrid中的候選特征子集。
0.1.3.1 Filter Model
-
不是使用聚類算法測試特征的質量,通過一個確定的標準來給特征的打分,然后選擇最高評分的特征。
Dash等人在總結Ben-Bassat等人、Doak等人的工作后將評價準則分為五類:
距離度量(Distance Measure)、
信息增益度量(Information Gain Measure)、
依賴性度量(Dependence Measure)、
一致性度量(Consistency Measure)、
分類器錯誤率度量(Classifier Error Rate Measure)。(1)距離度量:距離度量一般認為是差異性或者分離性的度量,常用的距離度量方法有歐式距離等。對于一個二元分類問題,對于兩個特征f1f1和f2f2,如果特征f1f1引起的兩類條件概率差異大于特征f2f2,則認為特征f1f1優于特征f2f2。
(2)信息增益度量:特征f的信息增益定義為使用特征f的先驗不確定性與期望的后驗不確性之間的差異。若特征f1f1的信息增益大于特征f2f2的信息增益,則認為特征f1f1優于特征f2f2。
(3)依賴性度量:依賴性度量又稱為相關性度量(Correlation Measure)、通常可采用皮爾遜相關系數(Pearson correlation coefficient)來計算特征f與類別C之間的相關度,若特征f1f1與類別C之間的相關性大于特征f2f2與類別C之間的相關性,則認為特征f1f1優于特征f2f2。同樣也可以計算得到屬性與屬性之間的相關度,屬性與屬性之間的相關性越低越好。
(4)一致性度量:假定兩個樣本,若它們的特征值相同,且所屬類別也相同,則認為它們是一致的:否則,則稱它們不一致。一致性常用不一致率來衡量,其嘗試找出與原始特征集具有一樣辨別能力的最小的屬性子集。
(5)分類器錯誤率度量:該度量使用學習器的性能作為最終的評價閾值。它傾向于選擇那些在分類器上表現較好的子集。-以上5種度量方法中,距離度量(Distance Measure)、信息增益度量(Information Gain Measure)、依賴性度量(Dependence Measure)、一致性度量(Consistency Measure)常用于過濾式(filter);
-分類器錯誤率度量(Classifier Error Rate Measure)則用于包裹式(wrapper)。
https://blog.csdn.net/u012328159/article/details/53954522 -
特征評估可以是單變量(univariate)或多變量(multivariate)。
- 單變量意味著每個特征的評估與特征空間無關。 比多變量更快、更有效。
- 多變量可以根據其他特征評估特征。 與單變量方法不同,多變量能夠處理冗余特征。
算法:SPEC(0.2.1.1),是單變量Filter模型的一個例子,在[78]中擴展到多變量方法。feature dependency [62](特征依賴), entropy-based distance [15](基于熵的距離), and laplacian score [26, 80](拉普拉斯分數)。
0.1.3.2 Wrapper Mode
- Wrapper模型是利用聚類算法進行評估的特征選擇模型。
- 首先找一個特征子集。
- 然后使用這個特征子集進行聚類,評估聚類效果。
- 重復上述兩個 過程直到得到期望的效果出現。
- 問題:評估所有的可能的特征子集對于高維數據集是不可能的,所以常常采用啟發式搜索策略來縮小搜索空間。即便如此 Wrapper模型比Filter模型計算復雜性上還是要昂貴的多。
- 算法:[18]中提出的方法是一個包含最大似然準則、特征選擇和高斯混合作為聚類方法的包裝器的例子。[32]中是使用傳統的聚類方法,如k-means和任何搜索策略作為特征選擇器。
0.1.3.3 Hybrid Model
- 結合Filter和Wrapper模型:
- 利用Filter的標準選擇出不同的候選特征子集
- 評估候選特征子集的聚類結果的質量
- 聚類結果最好的那個子集就是我們要的特征選擇的集合
- 比Filter的聚類效果好,比Wrapper的效率高。
0.2 Feature Selection for Clustering 聚類的特征選擇
一些算法處理文本數據,一些算法處理流數據。還有一些算法能夠處理不同類型的數據。在本節中,我們將討論一下算法以及它們可以處理的數據類型。
0.2.1 Algorithms for Generic Data 通用數據算法
能夠處理通用數據集的聚類特征選擇
0.2.1.1 Spectral Feature Selection (SPEC)譜特征選擇
SPEC[80]既可以監督也可以無監督學習,這里作為<font color=red>Filter模型 無監督 特征選擇</font>方法。
- [80]提出了一種基于"譜圖理論"(spectral graph)的特征選取框架,像Laplacian score 和 ReliefF 都屬于這個框架的一個特殊情況而已。而這個框架的假設,依然是本著原數據最重要的原則,假設一個好的特征應該與原來(訓練)數據構成的圖有著相似的結構。當然一個特征畢竟是有限的(比如用性別來區分人有沒有錢),可是這個特征與訓練數據的相關性越大,我們就覺得這個特征越好,越可取。
- 通過評估 從相似矩陣S導出的譜矩陣 的特征一致性 來評估特征相關性。
- 使用徑向基函數(Radial Basis Function)作為樣本
和
之間的相似度函數。徑向基函數是某種沿徑向對稱的標量函數,通常定義為樣本到數據中心之間徑向距離(通常是歐氏距離)的單調函數。常用的高斯徑向基函數形如:
- <img src="https://img-blog.csdnimg.cn/2019080716164376.png" width="30%">
- 算法:
<img src="https://img-blog.csdnimg.cn/20190809104130163.png" width="60%">- 1.構建數據的相似性矩陣S,以及由此基礎推出的圖的表示G,和D,W,L。
- 在這里插入圖片描述
-
,
是對角矩陣。
-
在這里插入圖片描述
G由S構造,鄰接矩陣W由G構造。
- 2.使用三個權重函數評估特征的權重。函數來源于正則化割函數和圖譜,并可以擴展到更加一般的形式。 我們假設給定特征向量
,每個函數
基于歸一化拉普拉斯算子
返回權重。
- 1.構建數據的相似性矩陣S,以及由此基礎推出的圖的表示G,和D,W,L。
0.2.1.2 Laplacian Score (LS)拉普拉斯分數
如果將SPEC 中<img src="https://img-blog.csdnimg.cn/20190809104238212.png" width="15%" align=center>替換為:
<img src="https://img-blog.csdnimg.cn/20190809104931193.png" width="60%" align=center>
則LS拉普拉斯分數是SPEC的一個特殊的案例。
LS在數據大小方面非常有效。與SPEC相似,LS中最耗時的是構造相似矩陣s。該算法的優點是既能處理帶標記的數據,又能處理無標記的數據。
0.2.1.3 Feature Selection for Sparse Clustering稀疏聚類特征選擇
[71]用Lasso和
范數作為特征選擇方法嵌入在聚類過程中。特征選擇的數量L使用gap statistics選擇,類似于[67]中的選擇聚類數量。
- 目標函數:
<img src="https://img-blog.csdnimg.cn/20190810101249215.png" width="65%" align=center>
是某一類中樣本數。
是只使用特征
時樣本
和樣本
的相似度。
<img src="https://img-blog.csdnimg.cn/20190810100705149.png" width="65%" align=center> - 優化:
采用交替優化方法,首先固定,優化關于
的(0.4)式,在這一步,僅使用第
個特征對
的相似度矩陣上用標準K-means聚類。得到一個聚類之后再優化關于
的(0.4)式。
- 算法:
<img src="https://img-blog.csdnimg.cn/20190810101842989.png" width="70%" align=center>
0.2.1.4 Localized Feature Selection Based on Scatter Separability(LFSBSS) 基于離散分離性的局部特征選擇
- [35]借鑒了Dy和Brodley[18]中離散分離性的概念,并將其作為局部特征選擇。他們將分散可分性定義為:
<img src="https://img-blog.csdnimg.cn/20190810104222900.png" width="20%">
其中是類內分離性的逆,
是類間分離性。
只要聚類任務不變,隨維數增加單調遞增。為了解決這個問題,分離性標準必須根據特征選擇的維數進行標準化。此外,由于局部的特征選擇嘗試為每個簇選擇不同的相關特征集,因此簇之間的分離性也需要進行適當的規范化。這是通過對單個簇的交叉投影來實現的。
- LFSBSS采用序列向后特性選擇。這意味著,集群首先使用整個特征空間生成。然后,迭代地從每個集群中刪除基于a的不相關或有噪聲的特性。
- 算法:
<img src="https://img-blog.csdnimg.cn/20190810102457344.png" width="80%">
0.2.1.5 Multi-Cluster Feature Selection (MCFS)
0.2.1.6 Feature Weighting k-means
0.2.2 Algorithms for Text Data
0.2.2.1 Term Frequency (TF)
0.2.2.2 Inverse Document Frequency (IDF)
0.2.2.3 Term Frequency-Inverse Document Frequency (TF-IDF)
0.2.2.4 Chi Square statistic
0.2.2.5 Frequent Term-Based Text Clustering
0.2.2.6 Frequent Term Sequence
0.2.3 Algorithms for Streaming Data
0.2.3.1 Text Stream Clustering Based on Adaptive Feature Selection (TSC-AFS)
0.2.3.2 High-dimensional Projected Stream Clustering (HPStream)
0.2.4 Algorithms for Linked Data
0.2.4.1 Challenges and Opportunities
0.2.4.2 LUFS: An Unsupervised Feature Selection Framework for Linked Data
0.2.4.3 Conclusion and Future Work for Linked Data
0.3 Discussions and Challenges
0.3.1 The Chicken or the Egg Dilemma
0.3.2 Model Selection: K and l
0.3.4 Stability
Bibliography
[1] Feature selection for dna methylation based cancer classi_cation. Bioinformatics, 17Suppl 1:S157-S164, 2001.
[2] A review of feature selection techniques in bioinformatics. Bioinformatics, 23(19):2507-2517, Oct 2007.
[3] C.C. Aggarwal, J. Han, J. Wang, and P.S. Yu. A framework for clustering evolving data streams. In Proceedings of the 29th international conference on Very large data bases-Volume 29, pages 81-92. VLDB Endowment, 2003.
[4] C.C. Aggarwal, J. Han, J. Wang, and P.S. Yu. A framework for projected clustering of high dimensional data streams. In Proceedings of the Thirtieth international conference on Very large data bases-Volume 30, pages 852-863. VLDB Endowment, 2004.
[5] C.C. Aggarwal, J.L. Wolf, P.S. Yu, C. Procopiuc, and J.S. Park. Fast algorithms for projected clustering. ACM SIGMOD Record, 28(2):61-72, 1999.
[6] T.M. Akhriza, Y. Ma, and J. Li. Text clustering using frequent contextual termset. In Information Management, Innovation Management and Industrial Engineering(ICIII), 2011 International Conference on, volume 1, pages 339-342. IEEE, 2011.
[7] Salem Alelyani, LeiWang, and Huan Liu. The e_ect of the characteristics of the dataset on the selection stability. In Proceedings of the 23rd IEEE International Conference on Tools with Arti_cial Intelligence, 2011.
[8] F. Beil, M. Ester, and X. Xu. Frequent term-based text clustering. In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 436-442. ACM, 2002.
[9] C. Boutsidis, M.W. Mahoney, and P. Drineas. Unsupervised feature selection for the k-means clustering problem. Advances in Neural Information Processing Systems, 22:153-161, 2009.
[10] P.S. Bradley and O. L. Mangasarian. Feature selection via concave minimization and support vector machines. pages 82-90. Morgan Kaufmann, 1998.
[11] D. Cai, C. Zhang, and X. He. Unsupervised feature selection for multi-cluster data. In Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 333-342. ACM, 2010.
[12] A.C. Carvalho, R.F. Mello, S. Alelyani, H. Liu, et al. Quantifying features using false nearest neighbors: An unsupervised approach. In Tools with Arti_cial Intelligence(ICTAI), 2011 23rd IEEE International Conference on, pages 994-997. IEEE, 2011.
[13] Sanmay Das. Filters, wrappers and a boosting-based hybrid for feature selection. In ICML '01: Proceedings of the Eighteenth International Conference on Machine Learning, pages 74-81, San Francisco, CA, USA, 2001. Morgan Kaufmann Publishers Inc.29 30
[14] M. Dash and Y.S. Ong. Relief-c: E_cient feature selection for clustering over noisy data. In Tools with Arti_cial Intelligence (ICTAI), 2011 23rd IEEE International Conference on, pages 869-872. IEEE, 2011.
[15] Manoranjan Dash, Kiseok Choi, Peter Scheuermann, and Huan Liu. Feature selection for clustering - a filter solution. In In Proceedings of the Second International Conference on Data Mining, pages 115-122, 2002.
[16] R.O. Duda, P.E. Hart, and D.G. Stork. Pattern Classi_cation. John Wiley & Sons, New York, 2 edition, 2001.
[17] Jennifer G. Dy and Carla E. Brodley. Feature subset selection and order identi_cation for unsupervised learning. In In Proc. 17th International Conf. on Machine Learning, pages 247-254. Morgan Kaufmann, 2000.
[18] Jennifer G. Dy and Carla E. Brodley. Feature selection for unsupervised learning. J. Mach. Learn. Res., 5:845-889, 2004.
[19] J.G. Dy. Unsupervised feature selection. Computational Methods of Feature Selection, pages 19-39, 2008.
[20] B.C.M. Fung, K. Wang, and M. Ester. Hierarchical document clustering using frequent itemsets. In Proceedings of the SIAM International Conference on Data Mining, volume 30, pages 59-70, 2003.
[21] Nicola L. C. Talbot Gavin C. Cawley and Mark Girolami. Sparse multinomial logistic regression via bayesian l1 regularisation. In NIPS, 2006.
[22] L. Gong, J. Zeng, and S. Zhang. Text stream clustering algorithm based on adaptive feature selection. Expert Systems with Applications, 38(3):1393-1399, 2011.
[23] I. Guyon and A. Elissee. An introduction to variable and feature selection. Journal of Machine Learning Research, 3:1157-1182, 2003.
[24] Mark A. Hall. Correlation-based feature selection for machine learning. Technical report, 1999.
[25] T. Hastie, R. Tibshirani, and J. Friedman. The Elements of Statistical Learning. Springer, 2001.
[26] X. He, D. Cai, and P. Niyogi. Laplacian score for feature selection. Advances in Neural Information Processing Systems, 18:507, 2006.
[27] J.Z. Huang, M.K. Ng, H. Rong, and Z. Li. Automated variable weighting in k-means type clustering. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 27(5):657-668, 2005.
[28] Anil Jain and Douglas Zongker. Feature selection: Evaluation, application, and small sample performance. IEEE Transactions on Pattern Analysis and Machine Intelligence, 19:153-158, 1997.
[29] D. Jensen and J. Neville. Linkage and autocorrelation cause feature selection bias in relational learning. In ICML, pages 259-266, 2002.
[30] L. Jing, M.K. Ng, and J.Z. Huang. An entropy weighting k-means algorithm for subspace clustering of high-dimensional sparse data. Knowledge and Data Engineering, IEEE Transactions on, 19(8):1026-1041, 2007.31
[31] Thorsten Joachims, Fachbereich Informatik, Fachbereich Informatik, Fachbereich Informatik, Fachbereich Informatik, and Lehrstuhl Viii. Text categorization with support vector machines: Learning with many relevant features, 1997.
[32] Y.S. Kim, W.N. Street, and F. Menczer. Evolutionary model selection in unsupervised learning. Intelligent Data Analysis, 6(6):531-556, 2002.
[33] Ron Kohavi and George H. John. Wrappers for feature subset selection, 1996.
[34] Y. Li, S.M. Chung, and J.D. Holt. Text document clustering based on frequent word meaning sequences. Data & Knowledge Engineering, 64(1):381-404, 2008.
[35] Y. Li, M. Dong, and J. Hua. Localized feature selection for clustering. Pattern Recognition Letters, 29(1):10-18, 2008.
[36] Y. Li, C. Luo, and S.M. Chung. Text clustering with feature selection by using statistical data. Knowledge and Data Engineering, IEEE Transactions on, 20(5):641-652,2008.
[37] H. Liu and H. Motoda. Feature Selection for Knowledge Discovery and Data Mining. Boston: Kluwer Academic Publishers, 1998.
[38] H. Liu and H. Motoda, editors. Computational Methods of Feature Selection. Chapman and Hall/CRC Press, 2007.
[39] Huan Liu and Rudy Setiono. A probabilistic approach to feature selection - a filter solution. pages 319-327. Morgan Kaufmann.
[40] Huan Liu and Lei Yu. Toward integrating feature selection algorithms for classi_cation and clustering. Knowledge and Data Engineering, IEEE Transactions on, 17(4):491 -502, April 2005.
[41] B. Long, Z.M. Zhang, X. Wu, and P.S. Yu. Spectral clustering for multi-type relational data. In Proceedings of the 23rd international conference on Machine learning, pages 585-592. ACM, 2006.
[42] B. Long, Z.M. Zhang, and P.S. Yu. A probabilistic framework for relational clustering. In Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 470-479. ACM, 2007.
[43] H.P. Luhn. A statistical approach to mechanized encoding and searching of literary information. IBM Journal of research and development, 1(4):309-317, 1957.
[44] Ulrike Luxburg. A tutorial on spectral clustering. Statistics and Computing, 17(4):395-416, 2007.
[45] S.A. Macskassy and F. Provost. Classi_cation in networked data: A toolkit and a univariate case study. The Journal of Machine Learning Research, 8:935-983, 2007.
[46] Pabitra Mitra, Student Member, C. A. Murthy, and Sankar K. Pal. Unsupervised feature selection using feature similarity. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 24:301-312, 2002.
[47] D.S. Modha and W.S. Spangler. Feature weighting in k-means clustering. Machine learning, 52(3):217-237, 2003.32
[48] K. Morik, A. Kaspari, M. Wurst, and M. Skirzynski. Multi-objective frequent termset clustering. Knowledge and Information Systems, pages 1-24, 2012.
[49] MSK Mugunthadevi, M. Punitha, and M. Punithavalli. Survey on feature selection in document clustering. International Journal, 3, 2011.
[50] Mark E. J. Newman and Michelle Girvan. Finding and evaluating community structure in networks. Physical review E, 69(2):26113, 2004.
[51] Andrew Y. Ng. On feature selection: Learning with exponentially many irrelevant features as training examples. In Proceedings of the Fifteenth International Conference on Machine Learning, pages 404-412. Morgan Kaufmann, 1998.
[52] Kamal Nigam, Andrew Kachites Mccallum, Sebastian Thrun, and Tom Mitchell. Text classi_cation from labeled and unlabeled documents using em. In Machine Learning,pages 103-134, 1999.
[53] I.S. Oh, J.S. Lee, and B.R. Moon. Hybrid genetic algorithms for feature selection. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 26(11):1424-1437,2004.
[54] J. R. Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann, 1993. [55] V. Roth and T. Lange. Feature selection in clustering problems. Advances in neural information processing systems, 16, 2003.
[56] Yong Rui and Thomas S. Huang. Image retrieval: Current techniques, promising directions and open issues. Journal of Visual Communication and Image Representation, 10:39-62, 1999.
[57] P. Sen, G. Namata, M. Bilgic, L. Getoor, B. Galligher, and T. Eliassi-Rad. Collective classi_cation in network data. AI magazine, 29(3):93, 2008.
[58] Wojciech Siedlecki and Jack Sklansky. On automatic feature selection. pages 63-87, 1993.
[59] M. R. Sikonja and I. Kononenko. Theoretical and empirical analysis of Relief and ReliefF. Machine Learning, 53:23-69, 2003.
[60] L. Song, A. Smola, A. Gretton, K. Borgwardt, and J. Bedo. Supervised feature selection via dependence estimation. In International Conference on Machine Learning, 2007.
[61] C. Su, Q. Chen, X. Wang, and X. Meng. Text clustering approach based on maximal frequent term sets. In Systems, Man and Cybernetics, 2009. SMC 2009. IEEE International Conference on, pages 1551-1556. IEEE, 2009.
[62] L. Talavera. Feature selection as a preprocessing step for hierarchical clustering. In MACHINE LEARNING-INTERNATIONAL WORKSHOP THEN CONFERENCE-, pages 389-397. MORGAN KAUFMANN PUBLISHERS, INC., 1999.
[63] Jiliang Tang and Huan Liu. Feature selection with linked data in social media. In SDM, 2012.
[64] Jiliang Tang and Huan Liu. Unsupervised feature selection for linked social media data. In KDD, 2012.33
[65] L. Tang and H. Liu. Relational learning via latent social dimensions. In Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 817-826. ACM, 2009.
[66] B. Taskar, P. Abbeel, M.F. Wong, and D. Koller. Label and link prediction in relational data. In Proceedings of the IJCAI Workshop on Learning Statistical Models from Relational Data. Citeseer, 2003.
[67] R. Tibshirani, G. Walther, and T. Hastie. Estimating the number of clusters in a data set via the gap statistic. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 63(2):411-423, 2001.
[68] C.Y. Tsai and C.C. Chiu. Developing a feature weight self-adjustment mechanism for a k-means clustering algorithm. Computational statistics & data analysis, 52(10):4658-4672, 2008.
[69] J. Weston, A. Elisse, B. Schoelkopf, and M. Tipping. Use of the zero norm with linear odels and kernel methods. Journal of Machine Learning Research, 3:1439-1461, 2003.
[70] Dietrich Wettschereck, David W. Aha, and Takao Mohri. A review and empirical valuation of feature weighting methods for a class of lazy learning algorithms. Arti_cial ntelligence Review, 11:273-314, 1997.
[71] D.M. Witten and R. Tibshirani. A framework for feature selection in clustering. Journal f the American Statistical Association, 105(490):713-726, 2010.
[72] I.H. Witten and E. Frank. Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann Pub, 2005.
[73] Zenglin Xu, Rong Jin, Jieping Ye, Michael R. Lyu, and Irwin King. Discriminative semi-upervised feature selection via manifold regularization. In IJCAI' 09: Proceedings of he 21th International Joint Conference on Arti_cial Intelligence, 2009.
[74] Yiming Yang and Jan O. Pedersen. A comparative study on feature selection in text ategorization. pages 412-420. Morgan Kaufmann Publishers, 1997.
[75] L. Yu and H. Liu. Feature selection for high-dimensional data: A fast correlation-based filter solution. In T. Fawcett and N. Mishra, editors, Proceedings of the 20th Inter-
national Conference on Machine Learning (ICML-03),, pages 856-863, Washington,D.C., August 21-24, 2003 2003. Morgan Kaufmann.
[76] L. Yu and H. Liu. E_cient feature selection via analysis of relevance and redundancy.Journal of Machine Learning Research (JMLR), 5(Oct):1205-1224, 2004.
[77] W. Zhang, T. Yoshida, X. Tang, and Q. Wang. Text clustering using frequent itemsets. Knowledge-Based Systems, 23(5):379-388, 2010.
[78] Z. Zhao and H. Liu. Spectral Feature Selection for Data Mining. Chapman & Hall/Crc Data Mining and Knowledge Discovery. Taylor & Francis, 2011.
[79] Zheng Zhao and Huan Liu. Semi-supervised feature selection via spectral analysis. In Proceedings of SIAM International Conference on Data Mining (SDM), 2007.
[80] Zheng Zhao and Huan Liu. Spectral feature selection for supervised and unsupervised learning. In ICML '07: Proceedings of the 24th international conference on Machine