文章快速检索     高级检索
  人文地理  2017, Vol. 32 Issue (3): 152-160  DOI: 10.13959/j.issn.1003-2398.2017.03.020
0

引用本文  

孙烨, 张宏磊, 刘培学, 张捷. 基于旅游者网络关注度的旅游景区日游客量预测研究——以不同客户端百度指数为例[J]. 人文地理, 2017, 32(3): 152-160. DOI: 10.13959/j.issn.1003-2398.2017.03.020.
SUN Ye, ZHANG Hong-lei, LIU Pei-xue, ZHANG Jie. FORECAST OF TOURISM FLOW VOLUME OF TOURISTATTRACTION BASED ON DEGREE OF TOURISTATTENTION OF TRAVEL NETWORK: A CASE STUDY OF BAIDU INDEX OF DIFFERENT CLIENTS[J]. Human Geography, 2017, 32(3): 152-160. DOI: 10.13959/j.issn.1003-2398.2017.03.020.

基金项目

国家自然科学基金项目(41301134)

作者简介

孙烨(1990—), 女, 江苏连云港人, 硕士研究生, 主要研究方向为旅游规划、区域经济学。E-mail:sunyeyeah@163.com

通讯作者

张捷(1960—), 男, 江苏泰兴人, 教授, 博士, 博士生导师, 主要研究方向为旅游地理、书法景观和喀斯特。E-mail:jiezhang@nju.edu.cn

文章历史

收稿日期:2015-12-01
修订日期:2016-11-18
基于旅游者网络关注度的旅游景区日游客量预测研究——以不同客户端百度指数为例
孙烨, 张宏磊, 刘培学, 张捷     
南京大学地理与海洋科学学院, 南京 210023
摘要:网络搜索引擎是旅游者获取旅游信息的最重要入口,百度指数通过反映关键词被搜索的次数表征旅游者的网络关注度。文章以三清山为例,首先利用协整理论及格兰杰因果检验分析了PC端和移动端百度指数与实际游客量之间的关系,进一步建立日游客量ARMA模型和分别加入PC端和移动端百度指数的VAR模型,对游客量预测结果及预测能力进行比较分析,以期通过不同客户端、不同搜索关键词来填补游客量预测过程中旅游网络数据提取的单一性,得到更好的预测效果。发现移动端比PC端百度指数模型具有更好的预测效果,移动端比PC端百度指数对实际游客量的变动具有更好的解释能力。
关键词百度指数    协整检验    格兰杰因果检验    ARMA模型    VAR模型    
FORECAST OF TOURISM FLOW VOLUME OF TOURISTATTRACTION BASED ON DEGREE OF TOURISTATTENTION OF TRAVEL NETWORK: A CASE STUDY OF BAIDU INDEX OF DIFFERENT CLIENTS
SUN Ye, ZHANG Hong-lei, LIU Pei-xue, ZHANG Jie     
School of Geographic and Oceanographic Sciences, Nanjing University, Nanjing 210023, China
Abstract: It is the web search engine that is an important way for tourists to get travel information. Therefore, it is easy to record behavior of tourists. Baidu Index, by searching times of relevant keywords, is able to find out the degree of tourist attention of travel network easily. With the changes of different clients, Baidu Index shows certain spatiotemporal difference and precursor effect. In order to find out the relationships between Baidu Index of PC client and mobile client and the actual visitor number of Mount Sanqingshan, paper used the econometric cointegration theory and Granger causality test. In addition, to forecast Tourism Flow Volume, the paper further establishes ARMA model of the daily visitor number of Mount Sanqingshan and VAR models which add Baidu Index of PC client or mobile client respectively. It is found that:1) There are long-term equilibrium relationships between the actual visitor number of Mount Sanqingshan and Baidu Index of PC client and mobile client of multigroup search keywords; 2) The results of variables Granger causality tests between Baidu Index of PC client and mobile client of Different search keywords and the actual visitor number of Mount Sanqingshan present significant inconsistencies; 3) Among the three prediction model, VAR model of mobile client is of the best prediction accuracy and ARMA model of the daily visitor number of Mount Sanqingshan is of the lowest prediction accuracy.
Key words: Baidu Index    co-integration test    Granger causality test    ARMA model    VAR model    
1 引言

伴随着人民生活水平的提高,旅游需求日益扩大。假日旅游在给人们提供了休闲、放松契机的同时,亦给旅游目的地地区带来了可观的收入,成为都市人重要的旅游方式。但短期的、集中的、高强度的出行,毋庸置疑地给沿途的交通系统、旅游目的地的服务系统造成了巨大的压力,如2013年10月2日九寨沟景区入口游客滞留事件、2014年12月31日上海外滩踩踏事件。局部游客数量井喷,游客的滞留,景点服务质量的下降,成为社会各界关注的热点。旅游从业者如何精确预测游客量,有效分配旅游资源,不仅有助于旅游目的地服务质量的提高,甚至关系到游客的身心安全。

游客量预测一直是旅游研究的传统议题,其研究方法相对丰富,产生了丰硕的研究成果。就当前的研究成果而言,其主要依托于传统的统计学模型[1-3]。典型的研究方法主要包括:一维时间序列模型[4-6]、多变量模型[7]和人工神经网络模型等[8]。但单纯构建统计学模型,缺乏游客行为的分析,使得传统的游客量预测方法在提高预测的时间精度、游客量精度、游客高峰趋势走向等方面均出现瓶颈。一方面,随着互联网与旅游出行的结合,线上与线下的联动,游客量时间分布与空间分布表现出新特征,传统的预测模型在预测过程中捉襟见肘;另一方面,随着电子商务的发展,出现了一大批以O2O模式运营的旅游公司。其在为消费者提供便捷服务的同时,亦精确地记录了旅游者的消费行为,为展开互联网影响下旅游者消费行为研究提供了新的素材。因此利用“大数据”,获得更加贴近消费者行为的高质量数据,修正传统的预测模型,探究互联网时代游客出行新特征,成为当前提高景区游客量预测的精确性的新突破口。

当前,搜索引擎成为人们搜索网络信息的主要渠道[9],亦成为反映人们消费行为、消费偏好的镜像。基于人群偏好、行为、态度网络搜索数据与现实数据的预测在国外相对成熟,早期集中在失业率[10, 11]与疾病预测等领域[12-14]。随后,网络搜索数据迅速运用于居民消费预测[15-17]、房地产市场预测[18]、票房预测[19]、股票市场预测[20]等经济社会领域中[21]。国内相应的研究从2010年以后开始逐渐兴起。其首先在经济学领域崭露头角,如对CPI的预测[22]、股市波动分析[23]等。随后,互联网数据运用于网络舆情分析的优势亦逐渐显现,如陈涛等利用搜索引擎的关注度指标对舆情热度时空演变展开了一系列研究[24]

做出旅游决策之前,旅游者大规模搜索旅游信息,互联网已经成为人们获取旅游信息的首要途径[25-27],旅游者利用搜索引擎搜寻包括景点、交通、天气、住宿等在内的旅游消费决策过程各阶段的相关信息,并最终进行旅游决策,完成旅行活动[28-31]。这种现象使得探寻网络搜索数据和旅游流之间的内在关系成为可能,网络搜索行为及其与旅游流之间的关系逐渐引起学术界关注。基于上述分析,本文建立了网络搜索数据与旅游者消费决策过程框架模型(图 1)。当前,将网络搜索数据与旅游结合的研究主要集中在以下三种视角:一是探究旅游网络搜索数据在时间维度上与旅游客流的关系,即引导作用[32-35]与前兆效应[36];二是发挥地理学时空分析的优势,着重探讨游客量与网络关注度的时空变化特征[37-39];三是研究网络搜索数据在旅游领域的预测功能,如Gawlik等利用网络搜索历史数据预测香港出游率[40]、Pan等利用搜索引擎数据和旅游局网站流量数据预测酒店客房需求量[41]、Yang等人利用两种搜索引擎谷歌和百度的搜索数据预测中国旅游目的地海南的游客流量[42]、黄先开等利用百度指数作为实际游客量的预测变量应用于游客量的预测研究[43]、任乐结合网络搜索指数与历史数据构建北京市旅游客流量预测模型[44]

图 1 网络搜索数据与旅游者消费决策过程框架 Fig.1 Frame Diagram of Internet Search Data and Tourist Purchase Decision-making Process

就当前研究成果而言,在利用网络搜索数据预测游客量的过程中,对于网络搜索数据的提取仍相对笼统,集中在数据平台月度数据以及日数据的简单提取。然而,不同客户端网络搜索数据间可能存在一定的时空差异、先兆效应差异和预测效果差异[36, 42, 45, 46],网络搜索数据提取工作精细化是进一步解读两者关系,提高预测精度的关键一步。三清山世界自然遗产地作为国内典型的山岳型景区,具有较好的地理空间上山岳景区交通空间的代表性,该景区在高峰期间存在诸多的问题,如高峰期排队时间过长、游客大量滞留、游客体验差、环境压力巨大等,使用网络搜索数据对游客量进行有效预测能够为景区管理部门提供可靠的决策依据,帮助管理部门根据景区承载力及时采取预警、限制、分流等应对措施缓解以上问题,避免对景区的破坏和促进景区的可持续发展。因此,本文选取三清山为案例地,结合计量经济学中的协整理论及格兰杰因果检验,分析三清山实际游客量与PC端和移动端网络搜索数据之间的关系,建立三清山日游客量ARMA模型(auto-regressive moving average model,ARMA)并进行预测,进一步与分别加入PC端和移动端百度指数的VAR模型预测结果及预测能力进行比较分析,以期通过不同客户端、不同搜索关键词来填补游客量预测过程中旅游网络数据提取的单一性,得到更好的预测效果。

2 实证分析 2.1 百度关键词和数据的选取

“百度( www.baidu.com)”是目前全球最大、我国应用最普及的中文搜索引擎,百度指数以网民在百度的搜索量为数据基础,以关键词为统计对象,科学分析并计算出各个关键词在百度网页搜索中搜索频次的加权和,根据搜索来源的不同分为PC搜索指数和移动搜索指数。旅游是一种大众性的行为活动,旅游业的发展与游客的关注度息息相关,利用百度指数平台提供的“网络关注度”这一渠道,可以快速准确地获取目的地区域不同时间段的网络关注度及趋势曲线图、探究旅游人流与网络信息流间的关联。

本文以三清山为例,运用百度指数分析不同关键词PC端和移动端网络搜索数据与实际游客量之间的关系,并且运用不同客户端网络搜索数据进行预测以提高预测的时效性和精确性。根据旅游决策过程的不同阶段:产生需求或动机、收集有关旅游信息、确定旅游目的地或旅游线路、进行旅游预算、确定出游方式、决定是否外出旅游、实施决策外出旅游,选取“目的地”、“目的地+旅游攻略”、“目的地+天气”“目的地+门票”、“目的地+位置”等和旅游决策过程相关的基准关键词。本文选取“三清山”、“三清山旅游攻略”、“三清山天气”、“三清山门票”和“三清山在哪里”作为基准关键词,对这些关键词进行百度指数的搜索,找出其搜索量和相关的关键词。同时,运用一些关键词挖掘工具如站长工具(http://www.7c.com/keyword/)、爱站网(http://www.aizhan.com)等进行检验[43],进一步验证以上5个关键词搜索量位列前位,可以通过这些关键词不同客户端百度指数的变化来探究网络搜索数据和三清山实际游客量的关系、对实际游客量进行预测。

计量经济学模型的建立、分析以及预测需一定规模的样本数据,本文能够得到三清山2012年全年的实际旅游日接待人数(2012年全年共接待611.6万人次),满足样本数据的要求,数据来源于三清山管委会。与实际游客量数据相对应,本文分别收集了这5个关键相应时段的PC端和移动端的日百度指数。本文涉及到的各变量的名称和所对应的变量符号如表 1所示。

表 1 变量描述 Tab.1 Variable Description
2.2 研究方法

为了保证序列的平稳性和避免伪回归现象,建立计量经济学模型之前首先对时间序列进行单位根检验和协整检验,所以本文首先利用ADF检验对数据进行单位根检验,运用Johansen协整检验对数据进行协整检验,然后利用格兰杰因果检验分析三清山实际游客量与PC端和移动端关键词百度指数之间是否具有因果关系。为了考查网络搜索数据对三清山实际游客量的预测能力以及PC端和移动端数据预测能力的差异,先根据三清山实际游客量建立ARMA模型并进行预测,进一步建立分别加入5个关键词PC端和移动端百度指数的VAR模型对三清山实际游客量进行预测并进行基于VAR模型的方差分解,对三类模型的预测结果及预测能力进行比较分析。

2.2.1 ARMA模型

ARMA模型(auto-regressive moving average model),即自回归滑动平均模型,是由美国统计学家Box G E P和英国统计学家Jenkins G M在20世纪70年代提出的时间序列分析模型,一般ARMA(p, q)模型的形式可以表达为:

$ {{y}_{t}}\text{=}{{\phi }_{\text{1}}}{{y}_{t\text{-1}}}\text{+}{{\phi }_{\text{2}}}{{y}_{t\text{-2}}}+\ldots +{{\phi }_{p}}{{y}_{t\text{-}p}}+{{\varepsilon }_{t}}-{{\theta }_{1}}{{\varepsilon }_{t-1}}-{{\theta }_{2}}{{\varepsilon }_{t-2}}-, \ldots, -{{\theta }_{q}}{{\varepsilon }_{t-q}} $ (1)

其中:p为自回归模型的阶数;q为滑动平均模型的阶数;ϕi(i=1, 2, ⋯, p)、θj (j=1, 2, ⋯, q)为模型的待定系数;εt为残差;yt为观测值。AR和MA模型都是ARMA (p, q)的特殊情形,当p=0时,ARMA(0, q)= MA(q);当q=0时,ARMA(p, 0)= AR(q)。

2.2.2 向量自回归模型

VAR模型(vector auto regression),即向量自回归模型,是多元时间序列分析中最常用的方法之一,它基于数据的统计性质建立模型,把系统中每一个内生变量作为系统中所有内生变量的滞后值的函数来构造模型,通常用于多变量时间序列系统的预测和描述随机扰动对变量系统的动态影响。本文构建的三清山实际游客量与百度指数的VAR模型如下:

$ {{Z}_{t}}={{A}_{1}}{{Z}_{t-1}}+{{A}_{2}}{{Z}_{t-2}}+\ldots +{{A}_{p}}{{Z}_{t-p}}+{{\varepsilon }_{t}} $ (2)

其中:Zt是由k个内生变量组成的向量,即Zt=(Yt, BD1t, BD2t, ⋯ BD(k-1)t);YtBD1tBD2t,⋯,BD(k-1)t依次表示三清山实际游客量和不同关键词对应的百度指数;εtk维随机扰动向量;p为滞后阶数;k×k维矩阵A1, A2,⋯, Ap是待估系数矩阵。

2.3 网络搜索数据与实际数据的关系 2.3.1 单位根和协整检验

由于本文的样本数据为时间序列数据,为了保证序列的平稳性和避免伪回归现象,在建立计量经济学模型之前要对序列进行单位根检验和协整检验。单位根检验采用ADF检验法[47],检验结果见表 2

表 2 变量的单位根检验结果 Tab.2 The Results of Variables Unit Root Test

表 2可知,检验结果表明除了pc端的4个变量的原序列不平稳、一阶差分序列平稳,为一阶单整,其他几个变量的原序列均是平稳序列,为0阶单整,符合协整分析的前提条件。下面进行协整分析[47],检验三清山实际游客量与5个关键词PC端和移动端百度指数之间是否存在长期均衡关系,结果见表 3

表 3 Johansen协整检验结果 Tab.3 The Results of Johansen Co-integration Test

表 3TPSQSPGLPTQPMPPZNLP的Johansen协整检验结果可知,原假设“没有协整”下的迹统计量值为148.9912,大于临界值95.7537,且概率P值几乎为0,可以拒绝原假设,认为至少存在一个协整关系;下一个原假设“最多有一个协整关系”下的迹统计量值为75.3809,大于临界值69.8189,且概率P值为0.0168,可以拒绝原假设,认为至少存在两个协整关系;下一个原假设“最多有两个协整关系”下的迹统计量为40.1789,小于临界值47.8561,且概率p值为0.2388,可以接受原假设。认为存在两个协整关系,检验结束。TPSQSPGLPTQP MPPZNLP这6个变量的协整检验结果表明各变量之间满足协整关系,PC端百度指数与实际游客量之间具有长期均衡关系。同理,由表 3可知,移动端百度指数与实际游客量之间同样具有长期均衡关系。在短期内由于随机干扰,这些变量可能偏离均衡值,但这种偏离是暂时的,最终会回到均衡状态。

2.3.2 格兰杰因果关系检验

自变量与因变量之间存在协整关系,因此,它们之间一定存在某种形式的格兰杰因果关系。格兰杰因果关系检验能够考察变量之间是否具有预测能力。检验过程中,由于格兰杰因果关系检验对滞后期的选取有较大的敏感性,本文根据AIC准则(Akaike Information Criterion,AIC)和SC准则(Schwarz Criterion,SC)等信息准则来确定最优滞后期。在滞后期为5时,对5个关键词PC端百度指数与实际游客量进行格兰杰因果关系检验,在滞后期为7时,对移动端百度指数与实际游客量进行格兰杰因果关系检验,检验结果如表 4所示。

表 4 格兰杰因果关系检验结果 Tab.4 The Results of Variables Granger Causality Tests

表 4可知,就PC端而言,关键词“三清山天气”与三清山实际游客量间存在单向的因果关系,即“三清山天气”是实际游客量的格兰杰因果原因的概率几乎为100%,“三清山天气”PC端搜索指数的变化会引起实际游客量的变化。关键词“三清山”和三清山实际游客量间存在双向的因果关系,即关键词“三清山”是实际游客量的格兰杰因果原因的概率几乎为100%,实际游客量是关键词“三清山”的格兰杰原因的概率也几乎为100%,关键词“三清山”PC端搜索指数和实际游客量两者之间相互影响。关键词“三清山旅游攻略”、“三清山门票”、“三清山在哪里”分别和三清山实际游客量之间也都存在双向因果关系。同理,由表 4可知,就移动端而言,关键词“三清山”、“三清山门票”、“三清山在哪里”分别与实际游客量存在单向因果关系,关键词“三清山旅游攻略”、“三清山天气”分别与实际游客量存在双向因果关系。

2.4 预测模型建立与分析 2.4.1 ARMA模型的建立及预测

在拟合时间序列ARMA时,滞后期的确定至关重要。首先,根据三清山实际游客量序列的自相关(ACF)和偏自相关(PACF)图,初选若干ARMA(p, q)形式模型进行比较[47]。根据模型的拟合优度、赤池信息量准则(AIC)和施瓦茨准则(SC)以及模型预测的均方根误差比较不同滞后期的模型,最终确定ARMA(7, 0, 5) 型。选出的模型具有较小的AIC和SC值,模型调整后的拟合优度较高,拟合效果较好,且具预测的均方根误差较小。为了比较模型的预测能力,此模型的样本期为2012年1月至11月份,2012年12月份的样本作为预测能力的检验数据。具体模型的估计结果如表 5(括号中的数值为变量的t值):

$ TP=\sum\limits_{i=1}^{7}{AR\left( i \right)}TP\left( -i \right)+\sum\limits_{i=1}^{5}{MA}\left( i \right)\varepsilon \left( -i \right)+C $ (3)
表 5 三清山日游客量ARMA模型估计结果 Tab.5 The Results of ARMA Model of the Daily Visitor Number of Mount Sanqingshan

方程(3)经过调整后的拟合优度的值为0.6518,AIC的值为18.0424,SC的值为18.1927。

AR模型根的倒数为0.96、0.47-0.41i、0.47 + 0.41i、-0.22+0.97i、-0.22-0.97i、-0.90-0.43i、-0.90+0.43i均在单位圆内,MA模型根的倒数0.88、-0.22+0.95i、-0.22-0.95i、-0.89-0.44i、-0.89+0.44i也均在单位圆内,表明模型是稳定的。利用方程(3)对样本期内预测的均方根误差(root mean squared error)为1924.939。然后利用方程(3)对样本期外的2012年12月份三清山实际游客量进行预测,此时预测的均方根误差为984.189。

2.4.2 VAR模型的建立及预测

由于三清山实际游客量与PC端及移动端百度指数均具有长期均衡关系,且存在格兰杰因果关系,因此,分别建立PC端和移动端的VAR模型进行预测。

(1)PC端VAR模型建立及预测

首先,通过滞后长度准则来确定VAR模型最优滞后期。5个评价指标(似然比检验LR、最终预测误差FPE、赤池信息准则AIC、施瓦茨准则SC、HQ准则)中有3个认为最佳滞后阶数为5,故建立PC端的VAR(5) 模型[47]。经检验,此VAR模型的所有特征根倒数的模都在单位圆内,因此模型通过稳定性检验,认为模型是稳定的。

PC端的VAR(5) 模型由6个分别以三清山实际游客量和5个关键词PC端百度指数为被解释变量的6个回归函数组成,因本文主要研究百度指数对旅游景区实际游客量的预测能力,故仅对以三清山实际游客量为被解释变量的回归函数进行分析,该函数的估计结果如表 6

$ \begin{align} &TP=\sum\limits_{i=1}^{5}{C\left( 1, i \right)}TP\left( -i \right)+\sum\limits_{i=1}^{5}{C\left( 2, i \right)}+\sum\limits_{i=1}^{5}{C\left( 3, i \right)}GLP\left( -i \right) \\ &+\sum\limits_{i=1}^{5}{C\left( 4, i \right)}TQP\left( -i \right)+\sum\limits_{i=1}^{5}{C\left( 5, i \right)}TQP\left( -i \right) \\ &+\sum\limits_{i=1}^{5}{C\left( 6, i \right)}ZNLP\left( -i \right)+C\left( 7 \right) \\ \end{align} $ (4)
表 6 PC端VAR(5) 模型中以三清山实际游客量为被解释变量的回归函数估计结果 Tab.6 The Results of the Estimation of the Regression Function Taking the Actual Visitor Number of Mount Sanqingshan as Explanatory Variable in VAR(5) Model of PC Client

方程(4)调整后的拟合优度为0.7304,AIC值为17.8355,SC值为18.1924。同方程(3)比较,加PC端百度指数之后的模型的拟合优度提高,AIC和SC值变小,增强了对三清山实际游客量的解释能力。利用方程(4)对样本期内预测的均方根误差为1644.019,同方程(3)的1924.939相比,预测精度提高了14.6%。为了进一步检测预测能力,利用方程(4)对样本期外的游客量进行预测,预测的均方根误差为898.759,同方程(3)的984.189相比,预测精度提高了8.9%.

VAR模型的方差分解可将VAR模型系统内一个变量的方差分解到各个扰动项上,提供关于每个扰动因素影响VAR模型内各个变量的相对程度[47]图 2反映6个有效变量对三清山实际游客量TP的一个标准差的动态解释度,随着期数增加,三清山实际游客量变动方差由自身变动解释的部分逐渐下降,而由5个关键PC端词百度指数变动解释的部分逐渐增加,在第7期基本达到稳定,即三清山实际游客量的变动方差大约60%由自身的变动可以解释、40%由PC端百度指数的变动可以解释。

图 2 PC端VAR(5) 模型中三清山实际游客量方差分解图 Fig.2 Variance Decomposition of the Actual Visitor Number of Mount Sanqingshan in VAR(7) Model of PC Client

(2)移动端VAR模型建立及预测

同前文,首先通过滞后长度准则确定VAR模型最优滞后期,5个评价指标中有2个认为最佳滞后阶数为7,故建立移动端VAR(7) 模型。该VAR模型的所有特征根倒数的模都在单位圆内,因此模型通过稳定性检验,认为模型是稳定的。移动端VAR(7) 模型中以三清山实际游客量为被解释变量的回归函数估计结果如表 7所示:

$ \begin{align} &TP=\sum\limits_{i=1}^{7}{D\left( 1, i \right)}TP\left( -i \right)+\sum\limits_{i=1}^{7}{D\left( 2, i \right)}SQSM\left( -i \right) \\ &+\sum\limits_{i=1}^{7}{D\left( 3, i \right)}GLM\left( -i \right)+\sum\limits_{i=1}^{7}{D\left( 4, i \right)}TQM\left( -i \right) \\ &+\sum\limits_{i=1}^{7}{D\left( 5, i \right)}TQM\left( -i \right)+\sum\limits_{i=1}^{7}{D\left( 6, i \right)}ZNLM\left( -i \right)+D\left( 7 \right) \\ \end{align} $ (5)
表 7 移动端VAR(7) 模型中以三清山实际游客量为解释变量的回归函数估计结果 Tab.7 The Results of the Estimation of the Regression Function Which Takes the Actual Visitor Number of Mount Sanqingshan as Explanatory Variable in VAR(7) Model of Mobile Client

方程(5)调整后的拟合优度为0.7469,AIC值为17.8061,SC值为18.3034。同方程(3)、(4)进行比较,移动端VAR模型比三清山日游客量ARMA模型与PC端VAR模型的拟合优度提高,AIC和SC值变小,增强了对三清山实际游客量的解释能力。利用方程(5)对样本期内游客量进行预测的均方根误差为1560.906,样本期外预测的均方根误差为676.989,相对于方程(3)、方程(4),样本期内预测精度分别提高了18.9%和5.1%,样本期外的预测精度分别提高了31.2%和24.7%。移动端比PC端VAR模型具有更好的预测能力。

图 3反映移动端模型中6个有效变量对三清山实际游客量TP的一个标准差的动态解释度,在第7期基本达到稳定,游客量的变动方差大约40%由自身的变动可以解释、60%由移动端百度指数的变动可以解释。相对于PC端模型,游客量变动方差由自身变动解释的部分下降20%,而由5个关键词百度指数的变动解释的部分升高20%。移动端比PC端百度指数对实际游客量的变动具有更好的解释能力。

图 3 移动端VAR(7) 模型中三清山实际游客量方差分解图 Fig.3 Variance Decomposition of the Actual Visitor Number of Mount Sanqingshan in VAR(7) Model of Mobile Client
3 结论

本文以三清山为例,利用计量经济学中的协整理论和格兰杰因果检验,分析了三清山实际游客量与PC端和移动端百度指数的关系,对三清山日游客量ARMA模型和分别加入PC端和移动端百度指数的VAR模型进行游客量预测对比研究,得出以下主要结论:

第一,三清山实际游客量与关键词“三清山”、“三清山旅游攻略”、“三清山天气”、“三清山门票”和“三清山在哪里”PC端及移动端百度指数均满足协整关系,变量间均存在长期均衡关系。

第二,搜索关键词的百度指数与三清山实际游客量间存在单向格兰杰因果关系或双向格兰杰因果关系,且不同搜索关键词的移动端及PC端百度指数与三清山实际游客量之间的格兰杰因果关系检验结果呈现显著的不一致。

第三,PC端VAR模型比三清山日游客量ARMA模型样本期内的预测精度提高了14.6%,样本期外的预测精度提高了8.9%。移动端VAR模型比三清山游客量ARMA模型的精度提高了18.9%,样本期外的预测精度提高了31.2%。表明网络搜索数据比传统预测模型具有更好的预测效果。

第四,移动端VAR模型比PC端VAR模型样本期内的预测精度提高了5.1%,样本期外的预测精度提高了24.7%,移动端比PC端VAR模型具有更好的预测能力。移动端相对于PC端模型,游客量变动方差由自身变动解释的部分下降20%,由百度指数的变动解释的部分升高20%,表明移动端比PC端百度指数对实际游客量的变动具有更好的解释能力。根据加入移动端百度指数后的VAR模型,可以实现利用当天及滞后1—7天的百度指数数据预测三清山当天的游客量。

4 讨论

网络搜索数据在实际游客量预测过程中表现出的时效性、先兆性是传统结构数据无法比拟的,其预测精度亦是通过单纯地改进预测模型难以企及的。本研究发现“移动端”百度指数表现出更好的预测能力和解释能力,从侧面反映人们对旅游信息的搜索行为从“PC端”到“移动端”的迁移。“移动端”所仰仗的移动互联网是打通移动通信与互联网两个产业门类的产物。其预测能力的差异,一方面,与“移动端”与“PC端”特点密切相关。“移动端”更强调信息搜寻速度,“PC端”则着重于信息搜寻深度。当信息搜寻的速度超过信息搜寻的深度的时候,移动端将成为PC端的一个重要的替代。移动端”更好的预测能力表现出现代都市人更强调信息获取速度。另一方面,人们特定的行为习惯的影响,亦不可忽视。人们产生旅游想法的时候通常会处在闲散时间,“移动端”不受时空约束,更易进行搜索,且目的性较强;“PC端”会因为各种推送,使得信息搜索行为具有随意性,向线下转换为实际行动的可能性较低,与“移动端”相比表现出一定的局限性。除此之外,旅游是个流动性问题,由于消费的是目的地,所以必然有空间移动和到访的过程,此时由于PC端的不易携带性就导致旅游者行为研究中移动端的重要性,旅游搜索与旅游行为中都存在流动性—移动性。旅游移动性(Tourism Mobili-ty)和人类活动移动性(Human Mobility)可能存在某种同步,这在一定程度上反应出人们生活方式及行为模式的变化。综上所述,移动端的搜索行为可能更接近人们的真实的旅游需求和旅游动机。用户现在可能同等程度上都要使用移动端和PC端,并且根据特定的信息需求、信息搜索特点区分不同终端的使用,据此寻找提高预测精度的新思路,值得学者进一步地探究。目前,本文只能搜集到一年的三清山实际日游客量数据进行实证分析,未来可以进行长期的观察,利用五年左右的历史数据进行基于网络关注度的实际游客量预测研究。

参考文献
[1] Haiyan S, Gang L. Tourism demand modelling and forecasting: A review of recent research[J]. Tourism Management, 2008, 29(2): 203-220. DOI:10.1016/j.tourman.2007.07.016
[2] Weatherford L R, Kimes S E. A comparison of forecasting methods for hotel revenue management[J]. International Journal of Forecasting, 2003, 19(3): 401-415. DOI:10.1016/S0169-2070(02)00011-0
[3] Law R, Au N. A neural network model to forecast Japanese demand for travel to Hong Kong[J]. Tourism Management, 1999, 20(1): 89-97. DOI:10.1016/S0261-5177(98)00094-6
[4] Goh C, Law R. Modeling and forecasting tourism demand for arrivals with stochastic nonstationary seasonality and intervention[J]. Tourism Management, 2002, 23(5): 499-501. DOI:10.1016/S0261-5177(02)00009-2
[5] Chaitip P, Chaiboonsri C. Forecasting with X-12-ARIMA and ARFIMA: International tourist arrivals to India[J]. Annals of the University of Petrosani Economics, 2009, 9(3): 147-162.
[6] Cho V. Tourism forecasting and its relationship with leading economic indicators[J]. Journal of Hospitality & Tourism Research, 2001, 25(4): 399-420.
[7] Chan F, Lim C, Mcaleer M. Modelling multivariate international tourism demand and volatility[J]. Tourism Management, 2005, 26(3): 459-471. DOI:10.1016/j.tourman.2004.02.013
[8] 雷可为, 陈瑛. 基于BP神经网络和ARIMA组合模型的中国入境游客量预测[J]. 旅游学刊, 2007, 22(4): 20-25. [Lei Kewei, Chen Ying. Forecast of inbound tourists to China based on BP neural network and ARIMA combined model[J]. Tourism Tribune, 2007, 22(4): 20-25. ]
[9] Pan B, Hembrooke H, Joachims T, et al. In Google we trust: Users' decisions on rank, position, and relevance[J]. Journal of Computer-Mediated Communication, 2007, 12(3): 801-823. DOI:10.1111/jcmc.2007.12.issue-3
[10] Askitas N, Zimmermann K F. Google econometrics and unemployment forecasting[J]. Applied Economics Quarterly, 2009, 55(2): 107-120. DOI:10.3790/aeq.55.2.107
[11] Ettredge M, Gerdes J, Karuga G. Using web-based search data to predict macroeconomic statistics[J]. Communications of the ACM, 2005, 48(11): 87-92. DOI:10.1145/1096000
[12] Carneiro H A, Mylonakis E. Google trends: A web-based tool for real-time surveillance of disease outbreaks[J]. Clinical Infectious Diseases, 2009, 49(10): 1557-1564. DOI:10.1086/599193
[13] Cooper C, Mallon K, Leadbetter S, et al. Cancer Internet search activity on a major search engine, United States 2001—2003[J]. Journal of Medical Internet Research, 2005, 7(3): 36 DOI:10.2196/jmir.7.3.e36
[14] Ginsberg J, Mohebbi M H, Patel R S, et al. Detecting influenza epidemics using search engine query data[J]. Nature, 2009, 457(7232): 1012-1014. DOI:10.1038/nature07634
[15] Dzielinski M. Measuring economic uncertainty and its impact on the stock market[J]. Finance Research Letters, 2012, 9(3): 167-175. DOI:10.1016/j.frl.2011.10.003
[16] Vosen S, Schmidt T. Forecasting private consumption: Surveybased indicators vs. Google trends[J]. Journal of Forecasting, 2011, 30(6): 565-578. DOI:10.1002/for.v30.6
[17] Goel S, Hofman J M, Lahaie S, et al. Predicting consumer behavior with web search[J]. Proceedings of the National Academy of Sciences, 2010, 107(41): 17486-17490. DOI:10.1073/pnas.1005962107
[18] Mclaren N, Shanbhogue R. Using internet search data as economic indicators[J]. Bank of England Quarterly Bulletin, 2011, 51(2): 134-140.
[19] Hand C, Judge G. Searching for the picture: Forecasting UK cinema admissions using Google trends data[J]. Applied Economics Letters, 2012, 19(11): 1051-1055. DOI:10.1080/13504851.2011.613744
[20] Preis T, Moat H S, Stanley H E. Quantifying trading behavior in financial markets using Google trends[J]. Scientific Reports, 2013, 3: 1-6.
[21] Choi H, Varian H. Predicting the present with Google trends[J]. Economic Record, 2012, 88(S1): 2-9.
[22] 张崇, 吕本富, 彭赓, 等. 网络搜索数据与CPI的相关性研究[J]. 管理科学学报, 2012, 15(7): 50-59. [Zhang Chong, Lv Benfu, Peng Geng, et al. A study on correlation between web search data and CPI[J]. Journal of Management Sciences in China, 2012, 15(7): 50-59. ]
[23] 杨欣, 吕本富. 突发事件、投资者关注与股市波动——来自网络搜索数据的经验证据[J]. 经济管理, 2014, 36(2): 147-158. [Yang Xin, Lv Benfu. Emergency, investor attention and stock market volatility: Evidence from web search data[J]. Economic Management Journal, 2014, 36(2): 147-158. ]
[24] 陈涛, 林杰. 基于搜索引擎关注度的网络舆情时空演化比较分析——以谷歌趋势和百度指数比较为例[J]. 情报杂志, 2013, 32(3): 7-10. [Chen Tao, Lin Jie. Comparative analysis of temporal-spatial evolution of online public opinion based on search engine attention: Cases of Google trends and Baidu index[J]. Journal of Intelligence, 2013, 32(3): 7-10. ]
[25] 张捷, 温明华, 刘泽华, 等. 信息通信技术与旅行旅游业研究发展趋势——国际信息技术与旅游业联盟(IFITT)11届大会综述[J]. 旅游学刊, 2004, 19(3): 93-94. [Zhang Jie, Wen Minghua, Liu Zehua, et al. Development trend of information and communication technology and travel and tourism: Review on the 11st the international federation for IT and travel & tourism (IFITT) conference[J]. Tourism Tribune, 2004, 19(3): 93-94. ]
[26] 张捷, 刘泽华, 解杼, 等. 中文旅游网站的空间类型及发展战略研究[J]. 地理科学, 2004, 24(4): 493-499. [Zhang Jie, Liu Zehua, Xie Shu, et al. On types of the spacial distribution of Chinese tourist website[J]. Scientia Geographica Sinica, 2004, 24(4): 493-499. ]
[27] 程绍文, 张捷, 梁玥琳, 等. 我国旅游网站空间分布及动力机制研究[J]. 旅游学刊, 2009, 24(2): 75-80. [Cheng Shaowen, Zhang Jie, Liang Yuelin, et al. Study on the spatial disturibution and dynamic mechanism of China's tourism websites[J]. Tourism Tribune, 2009, 24(2): 75-80. ]
[28] 李莉, 张捷. 互联网信息评价对游客信息行为和出游决策的影响研究[J]. 旅游学刊, 2013, 28(10): 23-29. [Li Li, Zhang Jie. Impact of network information evaluation on tourists' information-related behavior and travel decisions[J]. Tourism Tribune, 2013, 28(10): 23-29. ]
[29] 涂玮, 金丽娇. 基于网络信息关注度的大学生旅游消费决策研究[J]. 北京第二外国语学院学报, 2012(1): 63-70. [Tu Wei, Jin Lijiao. Study on college student tourism consumption decision-making based on the attention to internet information[J]. Journal of Beijing International Studies University, 2012(1): 63-70. ]
[30] Pan B. The power of search engine ranking for tourist destinations[J]. Tourism Management, 2015, 47: 79-87. DOI:10.1016/j.tourman.2014.08.015
[31] Pan B, Xiang Z, Law R, et al. The dynamics of search engine marketing for tourist destinations[J]. Journal of Travel Research, 2011, 50(4): 365-377. DOI:10.1177/0047287510369558
[32] 路紫, 李晓楠, 杨小彦, 等. 基于旅游网站交互功能的访问者行为多时间维度研究[J]. 经济地理, 2010, 30(12): 2100-2103. [Lu Zi, Li Xiaonan, Yang Xiaoyan, et al. Multiple time dimensions of visitors' behavior based on the interactive function of tourism websites[J]. Economic Geography, 2010, 30(12): 2100-2103. ]
[33] 路紫, 赵亚红, 吴士锋, 等. 旅游网站访问者行为的时间分布及导引分析[J]. 地理学报, 2007, 62(6): 621-630. [Lu Zi, Zhao Yahong, Wu Shifeng, et al. The time distribution and guide analysis of visiting behavior of tourism website user[J]. Acta Geographica Sinica, 2007, 62(6): 621-630. DOI:10.11821/xb200706007]
[34] 路紫, 刘娜. 澳大利亚旅游网站信息流对旅游人流的导引:过程、强度和机理问题[J]. 人文地理, 2007, 22(5): 88-93. [Lu Zi, Liu Na. The guiding effect of information flow of Australian tourism website on tourist flow: Process, intensity and mechanism[J]. Human Geography, 2007, 22(5): 88-93. ]
[35] Davidson A P, Yu Y M. The internet and the occidental tourist: An analysis of Taiwan's tourism websites from the perspective of western tourists[J]. Information Technology & Tourism, 2005, 7(2): 91-102.
[36] 李山, 邱荣旭, 陈玲. 基于百度指数的旅游景区络空间关注度:时间分布及其前兆效应[J]. 地理与地理信息科学, 2008, 24(6): 102-107. [Li Shan, Qiu Rongxu, Chen Ling. Cyberspace attention of tourist attractions based on Baidu Index: Temporal distribution and precursor effect[J]. Geography and Geo-Information Science, 2008, 24(6): 102-107. ]
[37] 马丽君, 孙根年, 黄芸玛, 等. 城市国内客流量与游客网络关注度时空相关分析[J]. 经济地理, 2011, 31(4): 680-685. [Ma Lijun, Sun Gennian, Huang Yunma, et al. A correlative analysis on the relationship between domestic tourists and network attention[J]. Economic Geography, 2011, 31(4): 680-685. ]
[38] 龙茂兴, 孙根年, 马丽君, 等. 区域旅游网络关注度与客流量时空动态比较分析——以四川为例[J]. 地域研究与开发, 2011, 30(3): 93-97. [Long Maoxing, Sun Gennian, Ma Lijun, et al. An analysis on the variation between the degree of consumer attention of travel network and tourist flow in regional tourism: A case of Sichuan Province[J]. Areal Research and Development, 2011, 30(3): 93-97. ]
[39] 王硕, 曾克峰, 童洁, 等. 黄金周风景名胜区旅游客流量与网络关注度相关性分析——以庐山、华山、八达岭长城风景名胜区为例[J]. 经济地理, 2013, 33(11): 182-186. [Wang Shuo, Zeng Kefeng, Tong Jie, et al. A correlative analysis of the relationship between tourists and tourist network attention for scenic spots in special session[J]. Economic Geography, 2013, 33(11): 182-186. DOI:10.3969/j.issn.1000-8462.2013.11.029]
[40] Gawlik E, Kabaria H, Kaur S. Predicting tourism trends with Google insights[EB/OL]. (2011-12-15)[2015-12-02]. http://cs229. stanford. edu/proj2011/Gawlik Kaur-Kabaria -Predicting-Tourism Trends with Google Insights. pdf.
[41] Pan B, Wu D C, Song H. Forecasting hotel room demand using search engine data[J]. Journal of Hospitality & Tourism Technology, 2012, 3(3): 196-210.
[42] Yang X, Pan B, Evans J A, et al. Forecasting Chinese tourist volume with search engine data[J]. Tourism Management, 2015, 46: 386-397. DOI:10.1016/j.tourman.2014.07.019
[43] 黄先开, 张丽峰, 丁于思. 百度指数与旅游景区游客量的关系及预测研究——以北京故宫为例[J]. 旅游学刊, 2013, 28(11): 93-100. [Huang Xiankai, Zhang Lifeng, Ding Yusi. Study on the predictive and relationship between tourist attractions and the Baidu Index: A case study of the Forbidden City[J]. Tourism Tribune, 2013, 28(11): 93-100. ]
[44] 任乐, 崔东佳. 基于网络搜索数据的国内旅游客流量预测研究——以北京市国内旅游客流量为例[J]. 经济问题探索, 2014(4): 67-73. [Ren Le, Cui Dongjia. Prediction research of domestic tourist volume based on Internet search data: A case study of domestic tourist volume of Beijing[J]. Inquiry into Economic Issues, 2014(4): 67-73. ]
[45] 龙茂兴, 孙根年, 龙珍付. 遵义红色旅游网络关注度的客流响应研究[J]. 地理与地理信息科学, 2013, 29(5): 98-101. [Long Maoxing, Sun Gennian, Long Zhenfu. Tourist flow's response to degree of consumer network attention to Zunyi tourism[J]. Geography and Geo-Information Science, 2013, 29(5): 98-101. ]
[46] 林志慧, 马耀峰, 刘宪锋, 等. 旅游景区网络关注度时空分布特征分析[J]. 资源科学, 2012, 34(12): 2427-2433. [Lin Zhihui, Ma Yaofeng, Liu Xianfeng. Spatial and temporal features of network attention of scenic areas[J]. Resources Science, 2012, 34(12): 2427-2433. ]
[47] 李嫣怡, 刘荣, 丁维岱.EViews统计分析与应用修订版[M].北京:电子工业出版社, 2013:147-152, 178-185, 153-161, 165-170, 171-177. [Li Yanyi, Liu Rong, Ding Weidai. Eviews Statistical Analysis and Application (Revised Edition)[M]. Beijing: Publishing House of Electronics Industry, 2013:147-152, 178-185, 153-161, 165-170, 171-177.]