互联网及社交网络的发展如新浪微博等,在便利信息传播的同时导致网络舆情传播研究越来越困难。舆情传播模型能对舆情传播的过程和趋势进行描述,因此,基于舆情传播模型研究社交网络的舆情传播具有极其重要的意义。
对社交网络舆情的传播国内外都有较多研究。早期的舆情传播研究主要沿用SIS (Susceptible-Infected-Susceptible)、SIR (Susceptible-Infective-Recovered) 传染病模型[1-2]。后来很多研究者为更好地揭示社交网络的舆情传播规律改进这些传统模型: 2012年,朱恒民等[3]以无标度网络为载体提出了舆情传播的SIRS (Susceptible-Infective-Recovered-Susceptible) 模型; 2013年,张彦超等[4]结合传染病模型构造了一个基于社交网络的信息传播模型; Borge-Holthoefer等[5]将社交网络中用户的活跃度和对信息的感知度加入到信息传播模型中; 2014年,蒙在桥等[6]考虑信息的传播延迟,提出了动态消息传播模型; 张晓伟[7]借鉴日常生活中人与人之间的信任原理,提出了一种基于信任度的消息传播模型; 2015年,陈骁等[8]为探究微博转发网络的构建机制提出了一种有向加权网络模型; 2016年,黄宏程等[9]考虑了网络中用户的不同感染状态,引入感染用户的衰减函数,提出了适合社交网络的信息传播模型。
现有的社交网络舆情传播研究多局限于舆情传播模型本身,研究所提模型的有效性及参数对舆情传播的影响,与实际舆情数据结合较少。结合实际的传染病疫情数据对传染病传播的参数反演已有相关研究。韩卫国等人以香港和北京非典SARS (Severe Acute Respiratory Syndrome) 疫情数据为实例,采用SIR模型对SARS传播的时间过程参数反演[10]。熊焱等[11]提出一种基于SIR模型参数反演的新方法,以北京SARS疫情数据为例进行验证。王香阁等[12]基于SIR模型预测病毒传播的速度。但对于舆情传播的参数反演则不多见。
针对上述问题,本文基于SIR模型构建一种网络舆情传播模型,并提出了一种基于实际网络舆情大数据采用神经网络的舆情传播模型参数反演算法,可实现从日益增长的舆情大数据中挖掘出舆情传播的内在规律,可用于网络突发事件传播的数据拟合、过程模拟和趋势预测,可为政府部门对网络舆情事件的控制决策提供依据。
1 基本原理 1.1 SIR模型Kermack与McKendrick于1927年建立了经典的传染病SIR模型,将人群划分为易感染者S (Susceptible)、感染者I (Infected) 和移出者R (Recovered) 三类。S以一定的概率β被I感染,I以一定的概率γ被治愈后变成R,传播过程如图 1[13]。
经典SIR模型具体形式如下:
$\frac{\text{d}S}{\text{d}t}=-\beta S\left( t \right)I\left( t \right)$ | (1) |
$\frac{\text{d}I}{\text{d}t}=\beta S\left( t \right)I\left( t \right)-\gamma I\left( t \right)$ | (2) |
$\frac{\text{d}R}{\text{d}t}=\gamma I\left( t \right)$ | (3) |
$S\left( t \right)+I\left( t \right)+R\left( t \right)=N\left( t \right)$ | (4) |
式中:S(t)、I(t)、R(t) 和N(t) 分别表示t时刻易感人数、感染人数、移出人数和总人数,β和γ分别表示感染者的感染率和移出率。
1.2 网络舆情传播模型近年来学者们纷纷将SIR模型应用到复杂网络中[14-16]。本文在经典SIR模型的基础上,综合考虑部分未接收到舆情信息的网民在接收信息后不参与传播和部分接收信息但不传播的网民在舆情衍生话题的影响下变为传播者这两种情况,建立突发事件网络舆情演化传播的SIR模型。
网络舆情发生时,基于经典SIR模型,S也可能以概率d直接变为R;当原始网络舆情衍生新话题时,R会因为衍生话题舆情信息选择传播话题或制造新话题变为I的概率为c。易感染者S、感染者I和移出者R的转换关系如图 2。
改进经典SIR模型后,网络舆情传播模型具体形式如下:
$\frac{\text{d}S}{\text{d}t}=-aS\left( t \right)I\left( t \right)-dI\left( t \right)$ | (5) |
$\frac{\text{d}I}{\text{d}t}=aS\left( t \right)I\left( t \right)-bI\left( t \right)+cI\left( t \right)R\left( t \right)$ | (6) |
$\frac{\text{d}R}{\text{d}t}=bI\left( t \right)-cI\left( t \right)R\left( t \right)+dI\left( t \right)$ | (7) |
$S\left( t \right)+I\left( t \right)+R\left( t \right)=N\left( t \right)$ | (8) |
其中:a为感染率,b为衰退率,c为衍生影响率,d为转化率。本文舆情传播模型的易感染者S为未接收到舆情信息的用户,感染者I为接收到舆情信息并传播的用户,移出者R为接收到舆情但不传播或未接收到舆情且不传播的用户。
2 相关方法 2.1 Runge-Kutta方法龙格-库塔 (Runge-Kutta) 方法利用级数法的思想,间接使用泰勒展开式和斜率表达微分,应用广泛,精度高,可保证求解过程的稳定性和解的收敛性。
微分方程组 (5) ~(7) 可归结为一阶常微分方程组 (9):
$\left\{ \begin{align} & \frac{\text{d}S}{\text{d}t}={{f}_{1}}\left( t,S,I,R \right) \\ & \frac{\text{d}I}{\text{d}t}={{f}_{2}}\left( t,S,I,R \right) \\ & \frac{\text{d}R}{\text{d}t}={{f}_{3}}\left( t,S,I,R \right) \\ \end{align} \right.$ | (9) |
我们采用经典Runge-Kutta四阶方法求解此微分方程模型的数值解,求解公式如下:
$\left\{ \begin{align} & {{S}_{n+1}}={{S}_{n}}+\frac{h}{6}\left( {{k}_{11}}+2{{k}_{21}}+2{{k}_{31}}+{{k}_{41}} \right) \\ & {{I}_{n+1}}={{I}_{n}}+\frac{h}{6}\left( {{k}_{12}}+2{{k}_{22}}+2{{k}_{32}}+{{k}_{42}} \right) \\ & {{R}_{n+1}}={{R}_{n}}+\frac{h}{6}\left( {{k}_{13}}+2{{k}_{23}}+2{{k}_{33}}+{{k}_{43}} \right) \\ \end{align} \right.$ | (10) |
$\left\{ \begin{align} & {{k}_{1i}}={{f}_{i}}\left( t,S,I,R \right) \\ & {{k}_{2i}}={{f}_{i}}\left( {{t}_{n}}+\frac{h}{2},{{S}_{n}}+\frac{h}{2}{{k}_{11}},{{I}_{n}}+\frac{h}{2}{{k}_{12}},{{R}_{n}}+\frac{h}{2}{{k}_{13}} \right) \\ & {{k}_{3i}}={{f}_{i}}\left( {{t}_{n}}+\frac{h}{2},{{S}_{n}}+\frac{h}{2}{{k}_{21}},{{I}_{n}}+\frac{h}{2}{{k}_{22}},{{R}_{n}}+\frac{h}{2}{{k}_{23}} \right) \\ & {{k}_{4i}}={{f}_{i}}\left( {{t}_{n}}+\frac{h}{2},{{S}_{n}}+\frac{h}{2}{{k}_{31}},{{I}_{n}}+\frac{h}{2}{{k}_{32}},{{R}_{n}}+\frac{h}{2}{{k}_{33}} \right) \\ \end{align} \right.$ | (11) |
其中i=1, 2, 3; h为步长。
2.2 舆情预测方法常见的预测模型有两大类:基于传统统计学的预测方法,如时间序列模型、参数回归模型等,它们更适用于线性关系的预测;另一类基于智能机器学习算法的预测方法,如支持向量机模型、马尔可夫模型、神经网络模型等[17]。支持向量机模型对缺失数据敏感,核函数及参数的选择没有统一的模式。马尔可夫模型通过划分状态空间构造状态转移矩阵,预测精确性取决于未来一期的预测。而BP (Back-Propagation) 神经网络模型构造简单,无需建立解析数学模型,计算效率高,逼近效果好,非线性拟合能力强。因此,本文采用贝叶斯正则化BP神经网络进行群体性突发事件舆情传播的参数反演和趋势预测,网络结构如图 3所示。
本文BP网络的输入为改进SIR模型I(t) 的数值解,对应的参数值 (a, b, c, d, N) 作为网络的输出。
3 参数反演算法本文结合Runge-Kutta微分方程数值解法和BP神经网络技术,构造一种适合于网络舆情传播模型的参数反演算法,进行群体性突发事件舆情传播的参数反演和趋势预测。
参数反演算法的求解步骤如下:
1) 确定改进SIR模型的a、b、c、d和N的取值范围Ia、Ib、Ic、Id和IN,并分别在这些参数的取值区间内选取n组参数值 (ai,bi,ci,di,Ni),其中:ai∈Ia、bi∈Ib、ci∈IIc、di∈Id、Ni∈IN(i=1, 2, …, n)。
2) 对于每组参数值 (ai,bi,ci,di,Ni),利用Runge-Kutta方法求解微分方程组 (5) ~(8),求出一组I(t) 的数值解Ii, 1, Ii, 2, …, Ii, M,将n组I(t) 数值解作为网络的输入,对应的参数值 (ai,bi,ci,di,Ni) 作为网络的输出,构造n组训练样本,同时用相同方法构造m组测试样本。
3) 根据得到的训练样本使用贝叶斯正则化方法训练BP神经网络,并用测试样本测试训练效果。
4) 将实际突发事件舆情传播的相关数据输入训练好的神经网络,由神经网络的输出得到改进SIR舆情传播模型的反演参数值a、b、c、d和N。
5) 利用反演参数值a、b、c、d和N和改进SIR舆情传播模型预测后L天的舆情传播人数I(M+1), I(M+2), …, I(M+L)。
4 案例分析 4.1 案例选择和数据获取“医疗安全”问题历来是社会关注的热点话题,2016年4月28日针对自媒体曝出“魏则西”之死事件存在的涉事医院外包诊所给民营机构、百度竞价排名等问题,引起了网民的热议。为验证上述算法的可行性,选取目前国内最热门的社交网络—新浪微博平台“魏则西事件”作为本次研究实例。
采用爬虫技术抓取新浪微博相关的数据。以“魏则西”为搜索关键词,以每两个小时为搜索区间,抓取新浪微博上2016-04-28—2016-05-28一个月的微博,针对每条微博爬取微博发布者的昵称、发布时间、转发数、评论数、赞数等。每个时段的微博数量可反映舆情传播中传播者的舆情传播水平。
4.2 数据整理和分析针对以上数据,提取以每两个小时为区间的微博数量。因为新浪微博的博文数据和时间息息相关,通常每天2:00~6:00博文发布量偏少,9:00~10:00及22:00~23:00是博文发布的高峰期,因此将每天的博文量以4:00~16:00(第一时间段) 和16:00~4:00(次日)(第二时间段) 时间段进行分段统计,得到该事件新浪微博平台舆情传播的真实数据,时间长度为31 d,数据个数为62。部分数据如表 1所示。
以往研究大多以日微博总量衡量舆情传播者的传播水平,但群体性突发事件一旦发生如同火山爆发般迅速传播,到达高峰期时间极短,而利用事件增长期数据预测高峰期、衰退期等更有现实意义。因此,本文采用以上分段处理的博文量作为模型仿真的数据集反演SIR模型的参数,进而预测网络舆情的传播。由于博文量与一天中的不同时间段息息相关,因此本文将日博文量以4:00~16:00和16:00~4:00(次日) 时间段进行统计,用04-29—05-01前三天的6组数据作为输入数据进行参数反演获取感染率、衰退率等参数,利用传播模型预测该事件后续舆情传播的趋势走向。该算法的步骤如下:
1) 舆情传播模型参数的取值范围,感染率a∈[1.6×10-5, 2.6×10-5],衰退率b∈[0.004, 0.014],衍生影响率c∈[1.0×10-7, 2.0×10-6],转化率d∈[1.0×10-7, 2.0×10-6],N∈[2000, 3500];
2) 在上述参数的取值区间内随机选取10000组参数值,利用Runge-Kutta方法得到10000组I(t) 的数值解,将每个I(t) 数值解的前6个数值作为网络的输入,对应的参数值a、b、c、d、N作为网络的输出,构造10000组训练样本;
3) 利用BP神经网络技术训练,输入层节点数6,输出层节点数5,隐含层节点数8,最大迭代次数1000,目标误差0.01,学习速率0.05,训练算法trainbr,训练函数tansig;
4) 网络训练好后,以前三天此事件的6组实际微博数作为网络的输入,反演求得SIR模型的参数a、b、c、d和N;
5) 以上过程重复100次,求得模型参数a、b、c、d和N的平均值,代入SIR模型,可获得该事件后续舆情传播的趋势走向及高峰期、高峰期传播人数等信息。
4.4 预测结果分析 4.4.1 “魏则西”事件预测结果分析利用该事件前三天的微博数据参数反演100次,求得SIR模型参数a、b、c、d和N的平均值,结果如下:a=2.11034145×10-5, b=0.00998793,c=1.00034125×10-7,d=1.01032145×10-7,N=2989,代入改进SIR模型,部分预测结果如表 2所示。表 2列出了利用该事件前三天的微博数据参数反演预测后16天 (05-02—05-17) 的舆情传播过程。
对比参数反演的预测结果和实测数据,如图 4所示。
由上述仿真结果可以看出,结合实际社交网络的实际网络舆情大数据,利用该事件前三天的微博数据,基于舆情传播模型的参数反演算法,可挖掘感染率、衰退率等舆情传播模型参数,预测该事件后续的舆情传播过程。仿真预测结果与实际数据变化趋势基本吻合,拟合效果较好,说明可以用基于网络舆情传播模型的参数反演算法来仿真模拟该类群体性突发事件的演化传播,并进行相应的分析和预测。
1) 该事件爆发于4月底,04-29—04-30为缓慢增长期,从05-01开始,该事件如同火山爆发般迅速传播,进入爆发阶段,05-03达到最高峰,预测结果和实际数据吻合;预测高峰期的微博量为1631,与实际数据1619相比,误差为12。
2) 05-05—05-12是该事件的衰退期。此阶段传播者比例呈现递减的态势,是事件衍生话题的潜伏期和关键期。此阶段实际数据存在很大的波动,因为该阶段存在一定的随机因素的影响,如“魏则西事件”涉及百度、央视、莆田系,导致网民热度上升,使网络舆情进入二度爆发阶段。
3) 05-13开始是该事件的平息期。经过衰退期后,网民对此事件的关注热度出现疲态,逐渐平息直至淡出网民视野。
4) 整个舆情传播过程,与实际数据相比,预测微博量的平均绝对误差为11.8,平均相对误差为14.2%。
4.4.2 算法有效性分析为了更好地验证所提算法的有效性以及更好地比较预测结果,抓取另一个案例“人机大战”2016-03-06—2016-03-21的相关新浪微博量,类似方法进行处理,分别建立基于马尔可夫模型的网络舆情预测模型和基于BP神经网络的参数反演网络舆情预测模型,分别利用该事件发展期的前三天6个数据预测后续舆情传播趋势。
基于马尔可夫模型的网络舆情预测中,经计算获得的状态空间:急速上升Z1=[17.98,35.97],缓慢上升Z2=[0,17.98],缓慢下降Z3=[-15.16,0],极速下降Z4=[-30.32,-15.16];状态转移矩阵P=
基于BP神经网络的参数反演网络舆情预测中,参数反演求得的SIR模型参数a=2.8986754×10-5,b=0.0219742, c=3.9836456×10-6,d=1.2753234×10-6,N=2686。
利用03-06—03-08三天的6个数据预测后续舆情传播趋势 (03-09—03-21),两者的预测结果对照如表 3,图 5所示。
由上述对同一事件,采用两种不同方法进行预测的结果可见:1) 马尔可夫模型舆情预测通过已知状态预测未来的状态,只能预测未来所处的状态空间,不能得到舆情的具体热度值,而本文算法可以精确预测舆情的具体热度值,更有实际意义;2) 马尔可夫模型通过舆情热度计算、状态空间划分、状态转移矩阵构造进行舆情热度趋势预测,状态转移矩阵的构造需要大量的数据,而网络舆情突发事件一旦发生往往进展很快,到达高潮的时间极短,数据量不足,这限制了马尔可夫模型的使用,而本文算法利用事件发展期的数据即可以进行参数反演,进而预测高潮期时间、高潮峰值等数据,更有现实意义。从图 5可见实际数据的衰退期有局部点数据出现了跳跃现象,经查发现,其原因是3月13日,围棋人机大战第四局较量中李世石接连三局负于“阿尔法围棋”后迎来了首次胜利,致使网民的热度上升。可见,实际舆情数据受各种随机因素的影响可能在局部点发生一定偏离,但模型对事件发展的整体趋势的预测是正确的,这表明通过模型参数反演获取到了舆情传播事件发展的内在规律,能够正确描述舆情传播进程在其内在机制驱动下的演化和发展规律。
5 结语本文在传统传染病模型的基础上构建了一种网络舆情传播模型,并提出了一种基于实际网络舆情大数据采用神经网络完成舆情传播模型参数反演的算法,实现了基于实际舆情传播数据从日益增长的舆情大数据中挖掘出舆情传播的内在规律。利用该参数反演算法预测网络舆情传播的趋势,并以新浪微博突发事件实际抓取数据为例进行了验证,并与马尔可夫预测模型进行了对比。结果表明,基于实际网络舆情大数据采用神经网络完成舆情传播模型参数反演的算法可以预测网络舆情的传播趋势且性能更优,这对指导政府部门制定网络舆情的控制策略有着重要的参考价值。
在下一步的研究中,拟构建一种考虑空间传播过程的网络结构动态演化的舆情传播模型。基于本文的参数反演算法进行实时参数反演,实现舆情传播过程中模型的参数动态演化,同时结合舆情大数据的地理位置信息对舆情的传播过程开展更进一步的研究。
[1] | 张发, 李璐, 宣慧玉. 传染病传播模型综述[J]. 系统工程理论与实践, 2011, 31(9): 1736-1744. ( ZHANG F, LI L, XUAN H Y. Survey of transmission models of infectious diseases[J]. Systems Engineering-Theory & Practice, 2011, 31(9): 1736-1744. doi: 10.12011/1000-6788(2011)9-1736 ) |
[2] | 刘丹, 殷亚文, 宋明. 基于SIR模型的微博信息扩散规律仿真分析[J]. 北京邮电大学学报, 2014, 16(3): 28-33. ( LIU D, YIN Y W, SONG M. Simulation analysis of micro-blog information diffusion based on SIR model[J]. Journal of Beijing University of Posts and Telecommunications, 2014, 16(3): 28-33. ) |
[3] | 朱恒民, 李青. 面向话题衍生性的微博网络舆情传播模型研究[J]. 现代图书情报技术, 2012, 28(5): 60-64. ( ZHU H M, LI Q. Public opinion propagation model with topic derivatives in the micro-blog network[J]. New Technology of Library and Information Service, 2012, 28(5): 60-64. doi: 10.11925/infotech.1003-3513.2012.05.09 ) |
[4] | 张彦超, 刘云, 张海峰, 等. 基于在线社交网络的信息传播模型[J]. 物理学报, 2011, 60(5): 50501. ( ZHANG Y C, LIU Y, ZHANG H F, et al. The research of information dissemination model on online social network[J]. Acta Physica Sinica, 2011, 60(5): 50501. doi: 10.7498/aps.60.050501 ) |
[5] | BORGE-HOLTHOEFER J, MELONI S, GONCALVES B, et al. Emergence of influential spreaders in modified rumor models[J]. Journal of Statistical Physics, 2013, 151(1/2): 383-393. |
[6] | 蒙在桥, 傅秀芬. 基于社交网络的动态消息传播模型[J]. 计算机应用, 2014, 34(7): 1960-1963. ( MENG Z Q, FU X F. Dynamic information spreading model based on online social network[J]. Journal of Computer Applications, 2014, 34(7): 1960-1963. doi: 10.11772/j.issn.1001-9081.2014.07.1960 ) |
[7] | 张晓伟. 在线社交网络下基于信任度的消息传播模型[J]. 计算机应用, 2014, 34(2): 411-416. ( ZHANG X W. Trust-based information propagation model in online social networks[J]. Journal of Computer Applications, 2014, 34(2): 411-416. ) |
[8] | 陈骁, 黄曙光, 秦李. 基于微博转发的社交网络模型[J]. 计算机应用, 2015, 35(3): 638-642. ( CHEN X, HUANG S G, QIN L. Social network model based on micro-blog transmission[J]. Journal of Computer Applications, 2015, 35(3): 638-642. doi: 10.11772/j.issn.1001-9081.2015.03.638 ) |
[9] | 黄宏程, 蒋艾玲, 胡敏. 基于社交网络的信息传播模型分析[J]. 计算机应用研究, 2016, 33(7): 2738-2742. ( HUANG H C, JIANG A L, HU M. Analysis of information diffusion model on social network[J]. Application Research of Computers, 2016, 33(7): 2738-2742. ) |
[10] | 韩卫东, 王劲峰, 刘旭华. SARS传播时间过程的参数反演和趋势预测[J]. 地球科学进展, 2004, 19(6): 925-930. ( HAN W D, WANG J F, LIU X H. Parameter inversion and trend prediction of SARS propagation process[J]. Advances in Earth Science, 2004, 19(6): 925-930. ) |
[11] | 熊焱, 王莉, 李大卫, 等. SIR传染病模型的参数反演[J]. 生物数学学报, 2009, 24(1): 129-135. ( XIONG Y, WANG L, LI D W, et al. Parameter inversion of SIR epidemic model[J]. Journal of Biomathematics, 2009, 24(1): 129-135. ) |
[12] | 王香阁, 于红斌, 王飘飘, 等. 基于SIR模型对埃博拉病毒蔓延趋势的预测[J]. 福建电脑, 2015, 14(2): 97, 115. ( WANG X G, YU H B, WANG P P, et al. The prediction of the spread of Ebola virus based on SIR model[J]. Fujian Computer, 2015, 14(2): 97, 115. ) |
[13] | KERMACK W O, MCKENDRICK W G. A contribution to the mathematical theory of epidemics[J]. Proceedings of the Royal Society of London:Series A, 1927, 115(1): 700-721. |
[14] | YUAN X P, XUE Y K, LIU M X. Global stability of an SIR model with two susceptible groups on complex networks[J]. Chaos, Solitons & Fractals, 2014, 59(2): 42-50. |
[15] | BALL F, SIRL D, TRAPMAN P. Analysis of a stochastic SIR epidemic on a random network incorporating household structure[J]. Mathematical Biosciences, 2010, 224(2): 53-73. doi: 10.1016/j.mbs.2009.12.003 |
[16] | 李可嘉, 王义康. 改进SIR模型在社交网络信息传播中的应用[J]. 电子科技, 2013, 26(8): 168-171. ( LI K J, WANG Y K. Application of improved SIR model in information transmission in social networks[J]. Electronic Science and Technology, 2013, 26(8): 168-171. ) |
[17] | 游丹丹, 陈福集. 基于改进粒子群和BP神经网络舆情预测研究[J]. 情报杂志, 2016, 35(8): 156-161. ( YOU D D, CHEN F J. Research on the prediction of network public opinion based on improved PSO and BP neural network[J]. Journal of Intelligence, 2016, 35(8): 156-161. ) |