社交網絡分析(SNA)是探索關系背后的科學與技術,從數學的角度看社交網絡,用圖論的方法探查社交網絡。在技術上,通過python 以及相關包文件的支持,來完成可計算的社交網絡(http://www.github.com/maksim2042/SNABook)。
什么是關系呢?在人際關系中,除了友誼,影響,情感,信任之外呢?關系可以是二元的,也可以被賦值,可以是對稱的,也可以是非對稱的,現實中更常見的是雙峰關系或者多模關系。
基于獨立性假設,通過泊松過程或樸素貝葉斯可以建立一些模型進行統計分析,進而得到一些宏觀結果的概率。但如果拋開獨立性假設,認為所有的關系都是潛在的相依關系,著就是圖論的用武之地。節點表示網絡內的獨立行動者,邊表示行動者直接的關系,進而通過單模圖,雙模圖,多模圖來描述社交網絡。數學上表示社交網絡的基本方法是矩陣,但是鄰接矩陣過于疏松,可以采用邊列表的形式來存儲社交網絡。
用圖來描述社交網絡,圖的距離是對圖進行量化分析的一種方法,通過圖的遍歷可以獲得信息傳播中的最短路徑和距離。我們學過的軟件基礎來了,深度優先和廣度優先的搜索,在NetworkX 中有現成的算法dfs_edges 和bfs_edges. ?對于非加權圖,距離意味著最短路徑;對于加權圖,距離是最低成本路徑, 而歐幾里得距離是建立在節點相似性上的。
誰是社交網絡中重要的人?看一個節點的邊的個數——程度中心性。程度中心性是服從冪律分布的。
誰是社交網絡中的消息傳播者?看一個節點的平均距離的倒數——親近中心性,值越大黏度越大。
誰是傳播瓶頸?看每對節點的最短距離,然后歸一化處理——居間中心性,值越大越是精英群體。
誰是“灰衣主教”? 相當于對程度中心性遞歸——特征向量中心性,它是隱形的核心。
google 的pagerank 算法可以說是將中心性理念發揮的淋漓盡致,面向移動產品的PageRank 很有空間呀?
對于社交網絡中可分析的單元,圖論中以子圖和組元來描述。子圖是一個以某一特定節點為核心的子網絡,就象linkedin中“我的網絡”,分析一個網絡半徑大于3的自我中心網絡是一個錯誤。
關系來了:
1)不對稱連接,維系不超過兩周
2)對稱的連接,較穩定
3)三元組隨著時間的推移是最穩定的,然而存在著禁止進入的三元組和結構洞。
有向三元組有16種可能情況,哪些命名誕生于1972年,和我差不多大了。三元組形成了子圖,最大的完全子圖就是派系。建立子圖的方法一般是分層聚類。人們的想法,態度和社會關系是由個體在群體中的身份所決定的,而群體的形成源于成員的態度。
鑒于節點的類型不同,形成了多模網絡。從二模網絡中可以創建隸屬網絡,以及同質性網絡。對于多模網絡,矩陣乘法可以得出很多有價值的結論。
如果可以對移動社交網絡進行模擬仿真,是一件多么有意思的事呀??初始化一個空的網絡圖,并在其中增加n個數據類型的對象,然后循環遍歷每一個可能的節點之間的組合,當概率等于密度的參數的時候,將在兩個節點間添加一個連接,這種生成圖的算法稱為Erdos-Renyi 算法,是一種生成隨機圖的最簡單方法,并產生一個正太分布的度分布,但實際上多數社交網絡符合一個長尾的度分布即冪律分布。