2. 山东省分布式计算机软件新技术重点实验室, 济南 250014 ;
3. 山东师范大学 数学科学学院, 济南 250014
2. Shandong Provincial Key Laboratory for Distributed Computer Software Novel Technology, Jinan Shandong 250014, China ;
3. School of Mathematical Sciences, Shandong Normal University, Jinan Shandong 250014, China
许多实际的复杂系统都可以抽象为网络,如人际关系网[1]、论文引用网[2]、万维网[3]等。网络中的节点代表现实世界中的实体,网络中的连边代表实体之间的某种联系。边具有正负两种符号属性的网络称作符号网络(Signed Network,SN),其中正边表示积极关系,负边表示消极关系。如人际关系中的“友好”“喜欢”代表正向联系,而“敌对”“厌恶”则代表负向联系;国家政党关系中的“合作”“联盟”代表正向联系,“竞争”“分歧”代表负向联系。
现实中的符号网络大多是不平衡网络且朝着结构平衡的方向演化,利用结构平衡理论可以更加有效地进行个性化推荐、态度预测和舆论引导等[4]。因而,度量符号网络的不平衡度有着重要意义,引起人们广泛关注。符号网络不平衡程度是指网络当前的结构状态与完全平衡状态的差距。目前有两类度量[4]:1) 所有平衡的环路占全网所有环路的相对比重,时间复杂度为O(n3)[5-6]。这一方法仅关注网络局部单元的平衡信息,未考虑网络更大范围乃至全局角度的平衡信息。2) 将不平衡度定义为对非平衡状态有贡献的边的数量。文献[7]基于谱分析的方法利用网络的拉普拉斯矩阵的最小特征值刻画符号网络不平衡度,这一方法虽然从全局角度出发,但又无法揭示网络中的不平衡区域。针对这一问题,Facchetti 等[8]提出利用伊辛自旋玻璃(Ising Spin Glasses)模型来计算网络的不平衡度,将此问题转化为优化问题,构造了一个目标函数,目标函数值越小网络越平衡,在度量网络全局平衡性的同时识别出不平衡的边。文献[9]在此基础上使用遗传算法求解此优化问题,虽收敛到最优解但速度较慢。文献[10]设计了一种两步多目标进化算法进行不平衡度计算,为此类问题的解决提供了一种新的视角,但其结果对第一步社区划分依赖过大,导致最终结果不够稳定。
针对上述问题,本文提出基于文化算法的符号网络全局不平衡度计算方法,利用伊辛自旋玻璃模型描述符号网络的状态,定义目标函数来表示全局不平衡度,并设计了一种具有双层进化结构的文化算法——CA-SNB(Culture Algorithm for Signed Network Balance)进行求解,在求得网络不平衡度的同时,可将网络节点划分为两个集合,根据集合内和集合间节点的连边符号可识别出引起网络不平衡的边,从而在计算网络全局不平衡度的同时确定不平衡区域。
本文所提出的CA-SNB算法是基于知识的双层进化系统,包含两个进化空间:一个是由在进化过程中获取的经验和知识组成的信度空间;另一个是由具体个体组成的种群空间,可以通过进化操作和性能评价进行自身的迭代。CA-SNB中,群体空间采用遗传算法描述种群进化,信度空间采用贪婪算法提取状况知识,并反过来引导种群空间的进化,使得种群进化效率高于单纯依靠生物基因遗传的进化速度,具有良好的全局优化性能,在保证种群多样性的基础上提高了收敛速度,克服了上述算法在大规模数据集上计算速度较慢的缺点。最后,在四个真实符号网络上的实验表明,CA-SNB算法与遗传算法和矩阵变换算法相比,能以较快速度收敛到最优解,在计算全局不平衡度的同时,识别不平衡区域。
1 背景知识 1.1 结构平衡理论定义符号网络G为G=(V,E),其中V是网络节点集合,E是网络中边的集合。任一条边 Jij∈E,其符号为 “+” 或 “-”。“+”代表边的两个节点之间是积极关系,“-”代表消极关系。如果网络中任意三角形边的符号之积都为正,则此网络是结构平衡网络。如图 1所示,三角形图 1(a) 和图 1(b)是平衡的,图 1(c)和图 1(d)是不平衡的。
在平衡理论的基础上,Cartwright等[11]提出了判定符号网络是否平衡的方法:如果符号网络G中的节点集合V能被分成两个子集A和B,满足每个子集内的所有边均为正边,子集间的边均为负边,则G是平衡的,如图 2所示。
文化算法[12-15]是一种新型的全局优化搜索算法,它模拟人类社会的文化演化过程,采用基于知识的双层进化机制,在传统基于种群的进化算法基础上,构建信度空间提取隐含在进化过程中的知识,并用知识指导进化过程,其基本框架如图 3所示。种群空间(Population Space)在进化过程中形成个体经验,通过接受函数Accept()传递给信度空间(Belief Space),信度空间在知识更新函数Update() 的作用下,将个体经验以知识的形式加以概括、描述和储存,并通过影响函数Influence() 指导种群空间的进化,以加速进化收敛,并提高算法随环境变化的适应性。文化算法已经成功应用于众多领域,如动态优化[12-13]、多目标优化[14]和社团发现[15]等。本文基于文化算法的双层框架,设计了CA-SNB算法求解符号网络不平衡度,得到了较好结果。
自旋玻璃是一种无序系统,它基于平均场理论揭示了非常丰富的复杂结构,已经成功运用于许多复杂系统的研究。本文将无向符号网络的节点赋予正负符号,根据伊辛自旋玻璃的哈密顿量[8],定义一个和节点符号向量相关的目标函数,函数值为:将节点按符号划分成两个集合后,同一集合内负边数和不同集合间正边数之和。根据结构平衡理论,计算符号网络不平衡度,就是要寻找一种节点集合划分,使得相同集合内的负边数和不同集合间的正边数最少,因此,目标函数的最小值即为网络的不平衡度。具体定义如下:
定义 S为无向符号网络中节点符号向量,S=(s1,s2,…,sn),si∈{±1},i=1,2,…,n,n是节点个数。Jij表示节点之间的连边,正边:Jij=1;负边:Jij=-1。L是由Jij 构成的n×n的邻接矩阵,由于只考虑无向符号网络,因此L是对称阵。符号网络的不平衡性可用如下函数[8]表示:
$h\left( S \right)=\sum\limits_{1\le i\le j\le n}{\frac{1}{2}\left( 1-{{J}_{ij}}{{s}_{i}}{{s}_{j}} \right)}$ | (1) |
遍历所有邻接节点对,当Jij=1时,si和sj同号,节点对(i,j)对h(S)的值贡献为0,si和sj异号,节点对(i,j)对h(S)的值贡献为1;反之当Jij=-1时,si和sj异号,节点对(i,j)对h(S)的值贡献为0,si和sj同号,节点对(i,j)对h(S)的值贡献为1。即利用节点的符号(+1,-1) 把节点分为两个集合,同一集合内的负边数和不同集合间的正边数之和为h(S)的值。计算全局不平衡度即找到一个节点符号向量S使得目标函数h(S)取最小值。全局平衡问题转化为求解如下优化问题:
$\delta \text{=min }h\left( S \right)=\min \sum\limits_{1\le i\le j\le n}{\frac{1}{2}\left( 1-{{J}_{ij}}{{s}_{i}}{{s}_{j}} \right)}$ | (2) |
当最小值δ为0时,表示该符号网络是平衡的。如图 4(b)所示,在包含5个节点、7条边的符号网络中,当S=(+1,-1,+1,+1,-1) 时,h(S)取到最小值δ=1。如图 4(e)所示,根据节点符号,可以把节点分为两个集合。由划分结果可知,节点4和节点5的连边破坏了网络平衡。如图 4(f)所示,改变此连边的符号,就可以使网络达到平衡状态。
CA-SNB算法包含两个相对独立的进化空间:种群空间Pt和信度空间Bt。种群空间采用遗传算法进化,进化形成的个体经验传递到信度空间,信度空间将最优个体保存,构建状况知识(Situation Knowledge),采用贪婪策略进行知识进化,并利用知识为种群空间进化提供指导。
文化基因算法的主框架如算法1所示。
算法1 CA-SNB。
输入 最大进化代数Gmax,种群规模Ps,状况知识规模s,交配池大小Sp,交叉概率Pc,变异概率Pm; 输出 Pt中的最优个体。
Begin
1) t=0;
2) Pt←GenerateInitialPopulation(Ps);//种群空间初始化
3) Bt ←GenerateInitialBelief(s);//信度空间初始化
4) repeat
5) Pt←GeneticOperation(Pt,Sp,Pc,Pm); //种群空间遗传进化,包括选择、交叉和变异
6) Bt←UpdateBelief(Bt,Accept(Pt)) //通过Accept()将种群空间个体经验传递给信度空间,//信度空间优化个体经验形成种群经验并更新状况知识
7) Pt←Generate(Pt,Influence(Bt)); //使用信度空间的状况知识,在Influence()作用下引导种群空间进化
8) t←t+1;
9) Pt←Select(Pt-1)//选择新的种群
10) until TerminationAchieved(Gmax) //当达到最大进化代数或种群无明显进化时终止算法
2.3 初始化 2.3.1 种群空间初始化CA-SNB中,种群空间规模为Ps,种群空间中的个体称为染色体,每个染色体X由若干基因位构成,对应符号网络节点的一组取值。若符号网络包含n个节点,则X是一个长度为n的向量X=(x1,x2,…,xn)。xi是节点si的取值(+1或-1) ,如图 5所示,随机给定X一组取值,可将节点划分为两个集合。
为提高收敛速度,采用启发式方法对初始种群进行调整:扫描网络中每一条边,调整节点对的值,如果边为正,节点对符号相同,否则相反。使得染色体初始值对h(S)的值没有贡献。种群初始化算法如下:
算法2 GenerateInitialPopulation(Ps)。
输入 种群规模Ps;
输出 种群P t。
Begin
1) 随机生成初始种群Pt,染色体 Xk 是由±1 构成的向量,其中k=1,2,…,Sp
2) for 遍历网络中每条边
3) for 遍历Pt中每个染色体Xk
4) if Jij=1
5) xi=xj;
6) elseif Jij=-1
7) xi=-xj;
8) end if
9) end for
10) end for
2.3.2 信度空间初始化信度空间的核心在于知识的描述和更新,CA-SNB算法选用状况知识描述信度空间的知识。状况知识记录进化过程中的较优个体,并采用贪婪策略进行知识更新。状况知识描述为:
B={E1,E2,…,Es}
其中:s为状况知识容量;Ei={Xi|f(Xi)}是种群中的第i个最优个体。 f(Xi)是Xi的适应度函数值,f(Xi)=N-h(Xi),N是符号网络的边数。状况知识中记录的较优个体按照个体适应度值降序排列,即满足f(Xi-1)>f(Xi),i≤s。
2.4 遗传操作种群空间使用遗传算法进化,采用锦标赛选择策略、两点交叉和带局部搜索的单点变异。遗传操作算法如算法3所示。
算法3 GeneticOperation(Pt,Sp,Pc,Pm)。
输入 种群P,交配池大小Sp,交叉概率Pc,变异概率Pm;
输出 新的种群Pt。
Begin
1) s=0;
2) P′t=select(Pt,Sp);//锦标赛选择
3) P″t=crossover(P′t,Pc);//以概率Pc进行两点交叉
4) P′′′t=mutate(P″t,Pm);//以概率Pm进行单点变异
5) 将 P′′′t 加入 Pt,Pt=Pt∪P″t
6) Pt←Select(Pt);//选择Ps个较优个体构新种群空间
选择 使用锦标赛策略产生交配池,从种群空间Pt中随机选取两个个体,比较它们的适应度值,较优个体进入交配池,重复此过程,直到交配池中个体数目达到Sp为止。
交叉 为避免终点效应(end-point effect) a[16],提高搜索性能,本算法选用两点交叉方式,随机选取父代个体Xa和Xb,随机选择两点i和j,交换Xa和Xb中i、 j之间的基因位,即xak$\leftrightarrow $xbk,i≤k≤j,产生两个新的染色体Xc和Xd。
变异 从父代种群P″t中随机选择一个染色体Xe进行单点变异,任取其中的一个基因位,将其值取反,保证随机选取一个和此节点有连边的节点,新值对h(S)没有贡献,对一个染色体重复n 次该过程,生成新染色体Xf。上述变异过程能够加强局部搜索,保证种群多样性。
2.5 信度空间的更新种群进化完成后Accept()函数会选取种群中较优个体进入信度空间,UpdateBelief()函数选取最优个体更新状况知识,更新过程描述如下:
$\begin{align} &{{B}^{t+1}}=\{{{E}_{1}}(t+1),{{E}_{2}}(t+1),...,{{E}_{l}}(t+1)\} \\ &=\left\{ \begin{matrix} \left\{ {{X}_{b}}(t),{{E}_{1}}(t),...{{E}_{l}}(t) \right\},&f\left( {{X}_{b}}(t) \right)>f\left( {{E}_{1}}(t) \right) 且 l<s \\ \left\{ {{X}_{b}}(t),{{E}_{1}}(t),...{{E}_{l-1}}(t) \right\}&f\left( {{X}_{b}}(t) \right)>f\left( {{E}_{1}}(t) \right) 且 l=s \\ \left\{ {{E}_{1}}(t),...{{E}_{l}}(t) \right\}&其他 \\ \end{matrix} \right. \\ \end{align}$ |
其中,Xb(t)是Pt中的最优个体。
2.6 Generate操作Generate()是算法的核心,在此阶段,信度空间的状况知识引导种群空间进化。首先将信度空间Bt加入种群空间Pt,此时Pt中个体数为Spop+s,对于其中每一个体Xi(i=1,2,…,Spop+s),将其和任意选取的若干个体的适应度值进行比较,若Xi的适应度值最大,则记录其获胜1次。统计每个个体的获胜次数,将最优的Spop个个体组成下一代种群。
3 实验结果与分析本文在具有代表性的两个小规模社交网络:斯洛文尼亚议会政党网络(Slovene Parliamentary Party network,SPP)和Gahuku-Gama亚族政治联盟网络(Gahuku-Gama Subtribes network,GGS);两个大规模生物网络:表皮生长因子受体(Epidermal Growth Factor Receptor,EGFR)网络和巨噬细胞网络(Macrophage network,Macrophage)上测试CA-SNB算法的性能,并与遗传算法(Genetic Algorithm,GA)和文献[8]所提出的矩阵变换算法(Matrix Transformation Algorithm,MTA)进行比较。GA算法仅包含选择、交叉和变异三个基本过程。MTA算法利用矩阵的相似变换,得到网络邻接矩阵的具有最少负边的相似矩阵,统计变换后网络中所有环路的负边数,从而求出符号网络的不平衡度。由于MTA并非进化算法,因此,在比较算法收敛速度时,仅将CA-CNB和GA进行对比;在比较目标函数均值和算法鲁棒性时,CA-CNB、GA和MTA都参与比较。
为保证实验准确性,在四个数据集上分别用三种算法独立运行各100次,比较CA-SNB和GA的平均迭代次数以及三种算法所得到的平均目标函数值。实验数据表明,CA-SNB算法在计算符号网络不平衡度时比GA和MTA算法更加准确,可更快收敛到最优解,并确定不平衡区域,尤其在大规模符号网络不平衡度计算中能得到更优的结果。相比GA和MTA算法,CA-SNB算法鲁棒性更好,优势显著。实验环境配置为:Windows 7 Professional操作系统,Intel Core i3 2.40GHz,4GB RAM。使用Matlab 2013b实现算法。
实验数据集网络参数如表 1所示,其中:n为网络节点数,m为网络边数,m+为正边数,m-为负边数。数据集详细信息如下:
1) SPP:SPP刻画了10个政党之间的相互联系,政党名称分别为Slovene Christian Democrats (SKD)、Associated List of Social Democrats(ZLSD)、Social Democratic Party of Slovenia (SDSS)、Liberal Democratic Party (LDS)、Two Green Parties,separated after 1992 elections(ZS-ESS and ZS)、Democratic Party (DS)、Slovene People's Party (SLS)、Slovene National Party (SNS)、A group of deputies,former members of SNS ,separated after 1992 elections (SPS-SNS)[17]。
2) GGS:描述了新几内亚高地的16个Gahuku-Gama亚族之间的政治联盟和战争[18]。
3) EGFR :表皮生长因子网络,包含330个节点、779 条边[19]。
4) Macrophage:巨噬细胞网络,包含697个节点、1425 条边[20]。
CA-SNB和GA所需参数取值为:进化代数最大值G为50;种群规模Ps为200;交配池规模Sp为60;交叉概率Pc为0.8;变异概率Pm为0.2。
社会关系网络SPP和GGS上的实验表明,CA-SNB、GA和MTA均能收敛到最优解,求得目标函数的最小值相同,对于SPP和GGS网络,三种算法求得最小值均为2和7。从收敛速度来看,CA-SNB收敛到最优解所需的进化代数少于GA,表现出较好的性能。。
图 6为进化代数从1依次增长到50时,采用CA-SNB和GA所求得目标函数值的变化情况。对于SPP网络,两算法求得的目标函数最小值均为2,即SPP网络不平衡度为2。但CA-SNB收敛速度较快,仅需1代进化就求得最优解,而GA需要两代进化才收敛到最优解。对于GGS网络,两算法最终都收敛到最优解7,CA-SNB需要进化3代即可收敛,而GA需要进化19代。由此可见,CA-SNB算法的种群空间进化采用遗传算法,保证了种群个体的多样性,其双层进化结构中信度空间记录了进化中的优势个体,构成状况知识并用于指导种群进化,提高了算法收敛速度,另外种群初始化时采用的启发式局部搜索也对加速算法收敛到最优解起到积极作用。
图 7是SPP网络不平衡度示意图,对应最优解的节点染色体取值如图 7(a)所示,根据此染色体可将节点分为集合A和集合B,如图 7(b)所示。集合B中,虚线所示的两条边SNS 到 ZS-ESS,SNS到 DS破坏了网络平衡,SPP网络不平衡度为2。
EGFR和Macrophage网络规模较大,分别包含329和678个节点。为保证搜索到最优解,将CA-SNB和GA的进化代数提高至500,利用CA-SNB、GA和MTA独立运行100次比较三者目标函数均值δavg-CA-SNB、δavg-GA和δavg-MTA,实验数据如表 2所示,CA-SNB所求目标函数均值在两个网络中均为最小。CA-SNB和GA的收敛速度比较如图 8所示,进化500代后,对于EGFR网络,CA-SNB求得目标函数均值为211.05,小于GA求得的均值为238.89;在Macrophage网络上,两算法得到的最优解也不同,CA-SNB为372.13远小于GA的503.27。由此可见,利用CA-SNB得到的结果要优于GA和MTA的结果,从而验证了CA-SNB在大规模符号网络不平衡度求解问题上的有效性和优越性。
为验证算法的鲁棒性,定义δup为100次实验中求得δ的最大值,δlow为最小值。定义R=δlow/δup,R 越大说明算法稳定性越好,CA-SNB、GA和MTA的R如表 3所示。实验数据表明,CA-SNB比GA和MTA更为稳定,具有较强鲁棒性。
符号网络的结构平衡性是符号网络结构演化、社团划分和关系预测等研究的基础。本文利用伊辛自旋玻璃模型将符号网络的不平衡度计算转化为一个优化问题,并设计一种新的文化算法CA-SNB求解此问题。CA-SNB是一个拥有种群空间和信度空间的有双层进化算法,种群空间采用遗传算法进化,信度空间利用贪婪策略保存较优个体形成状况知识引导种群进化,在保证种群个体多样性基础上提高了收敛速度。实验表明,在大规模符号网络不平衡度计算中,CA-SNB算法能较快地收敛到最优解。在后续工作中,将进一步探究算法参数取值对算法性能的影响,以期达到更好的效果。
[1] | AMARAL L A N, SCALA A, BARTHÉLÉMY M, et al. Classes of small-world network[J]. Proceedings of the National Academy of Sciences of the United States of America, 2000, 97 (21) : 11149-11152. doi: 10.1073/pnas.200327197 |
[2] | NEWMAN M E J. The structure of scientific collaboration networks[J]. Proceedings of the National Academy of Sciences of the United States of America, 2001, 98 (2) : 404-409. doi: 10.1073/pnas.98.2.404 |
[3] | ALBERT R, JEONG H, BARABÁSI A L. Diameter of the world wide Web[J]. Nature, 1999, 401 (6749) : 130-131. doi: 10.1038/43601 |
[4] | 程苏琦, 沈华伟, 张国清, 等. 符号网络研究综述[J]. 软件学报, 2014, 25 (1) : 1-15. ( CHENG S Q, SHEN H W, ZHANG G Q, et al. Survey of signed network research[J]. Journal of Software, 2014, 25 (1) : 1-15. ) |
[5] | SZELL M, LAMBIOTTE R, THURNER S. Multirelational organization of large-scale social networks in an online world[J]. Proceedings of the National Academy of Sciences of the United States of America, 2010, 107 (31) : 13636-13641. doi: 10.1073/pnas.1004008107 |
[6] | LESKOVEC J, HUTTENLOCHER D, KLEINBERG J. Signed networks in social media[C]//CHI'10:Proceeding of the 2010 SIGCHI Conference on Human Factors in Computing Systems. New York:ACM, 2010:1361-1370. http://cn.bing.com/academic/profile?id=2142517301&encoded=0&v=paper_preview&mkt=zh-cn |
[7] | KUNEGIS J, SCHMIDT S, LOMMATZSCH A, et al. Spectral analysis of signed graphs for clustering, prediction and visualization[C]//Proceedings of the 2010 SIAM International Conference on Data Mining. Philadelphia:SIAM, 2010:559-570. |
[8] | FACCHETTI G, IACONO G, ALTAFINI C. Computing global structural balance in large-scale signed social networks[J]. Proceedings of the National Academy of Sciences, 2011, 108 (52) : 20953-20958. doi: 10.1073/pnas.1109521108 |
[9] | SUN Y X, DU H F, GONG M G, et al. Fast computing global structural balance in signed networks based on memetic algorithm[J]. Physica A:Statistical Mechanics and its Applications, 2014, 415 : 261-272. doi: 10.1016/j.physa.2014.07.071 |
[10] | CAI Q, GONG M G, RUAN S S, et al. Network structural balance based on evolutionary multiobjective optimization:a two-step approach[J]. IEEE Transaction on Evolutionary Computation, 2015, 19 (6) : 903-916. doi: 10.1109/TEVC.2015.2424081 |
[11] | CARTWRIGHT D, HARARY F. Structural balance:a generalization of Heider's theory[J]. Psychological Review, 1956, 63 (5) : 277-293. doi: 10.1037/h0046049 |
[12] | COELLO C C A, BECERRA R L. Constrained optimization using an evolutionary programming-based cultural algorithm[M]. Berlin: Springer, 2002 : 317 -328. |
[13] | HUANG H Y, GU X S, LIU M D. Research on culture algorithm for solving nonlinear constrained optimization[J]. Acta Automatica Sinica, 2007, 33 (10) : 1115-1120. |
[14] | WU Y L, XU L Q. An improved multi-objective cultural algorithm based on particle swarm optimization[J]. Control and Decision, 2012, 27 (8) : 1127-1132. |
[15] | JIN X D, REYNOLDS R G. Mining knowledge in large-scale databases using cultural algorithms with constraint handling mechanisms[C]//Proceedings of the 2000 Congress on Evolutionary Computation. Piscataway, NJ:IEEE, 2000:1498-1506. |
[16] | HOLLAND J H. Adaptation in natural and artificial systems[M]. Cambridge: MIT Press, 1992 : 126 -137. |
[17] | KROPIVNIK S, MRVAR A. An analysis of the Slovene parliamentary parties network[C]//Developments in Data Analysis. Ljubljana:FDV, 1996:209-216. |
[18] | READ K E. Cultures of the central highlands, New Guinea[J]. Southwestern Journal of Anthropology, 1954, 10 (1) : 1-43. doi: 10.1086/soutjanth.10.1.3629074 |
[19] | ODA K, MATSUOKA Y, FUNAHASHI A, et al. A comprehensive pathway map of epidermal growth factor receptor signaling[J]. Molecular Systems Biology, 2005, 1 (1) : 1-17. |
[20] | ODA K, KIMURA T, MATSUOKA Y, et al. Molecular interaction map of a macrophage[J]. Afcs Research Reports, 2004, 2 (14) : 1-12. |