基于跨境电商可控关联性大数据的出口产品销量动态预测模型

引用本文

王雪蓉, 万年红. 基于跨境电商可控关联性大数据的出口产品销量动态预测模型[J]. 计算机应用, 2017, 37(4): 1038-1043.DOI: 10.11772/j.issn.1001-9081.2017.04.1038. 复制到剪切板

WANG Xuerong, WAN Nianhong. Dynamic prediction model on export sales based on controllable relevance big data of cross-border e-commerce[J]. Journal of Computer Applications, 2017, 37(4): 1038-1043. DOI: 10.11772/j.issn.1001-9081.2017.04.1038. 复制到剪切板

基金项目

浙江省社会科学界联合会研究课题成果（2017Z03）

通讯作者

万年红 (1977-), 男, 江西南昌人, 副教授, 硕士, 主要研究方向:互联网+、大数据、跨境电商。E-mail: wnhhong@126.com

作者简介

王雪蓉 (1981-), 女, 浙江平阳人, 副教授, 硕士, 主要研究方向:跨境电商、大数据

文章历史

收稿日期：2016-07-29
修回日期：2016-10-20

Contents Abstract Full text Figures/Tables PDF

基于跨境电商可控关联性大数据的出口产品销量动态预测模型

王雪蓉, 万年红

浙江东方职业技术学院信息传媒与自动化学院, 浙江温州 325011

收稿日期：2016-07-29；修回日期：2016-10-20

基金项目：浙江省社会科学界联合会研究课题成果（2017Z03）

作者简介：王雪蓉 (1981-), 女, 浙江平阳人, 副教授, 硕士, 主要研究方向:跨境电商、大数据

通讯作者：万年红 (1977-), 男, 江西南昌人, 副教授, 硕士, 主要研究方向:互联网+、大数据、跨境电商。E-mail: wnhhong@126.com

摘要: 目前流行的外贸产品销量预测方法单纯地分别从第三方平台或大数据角度研究预测问题，对互联网平台、跨境电商、大数据融合应用于产品销量动态演化预测的考虑不足。为提高出口产品销量预测效果，实现预测系统的伸缩性和动态演化性，基于研究"互联网+外贸"环境下跨境电商出口产品销量可控关联性大数据挖掘、个性化预测机制、智慧预测算法，改进分布式定量、集中式定性计算等相应算法，提出一个"互联网+外贸"驱动下基于跨境电商可控关联性大数据的出口产品销量动态预测模型，并进行了应用实验，对各种模型的实验结果进行对比分析。实验结果表明，该模型充分融合了"互联网+"的开放性、可延伸性和大数据动态预测优势，实现了"互联网+外贸"环境下基于跨境电商可控关联性大数据的出口产品销量动态、智慧、定量定性预测。该模型综合预测效果明显优于传统模型，具有较强的动态演化性和较高的实用价值。

关键词: 互联网+外贸跨境电商可控关联性大数据出口产品销量动态预测

Dynamic prediction model on export sales based on controllable relevance big data of cross-border e-commerce

WANG Xuerong, WAN Nianhong

School of Information Media and Automation, Zhejiang Dongfang Vocational and Technical College, Wenzhou Zhejiang 325011, China

Foundation Item: This paper is supported by Research Projects of Zhejiang Federation of Humanities and Social Sciences Circles (2017Z03)

Author introduction: WANG Xuerong, born in 1981, M. S., associate professor. Her research interests include cross-border e-commerce, big data

Corresponding author: WAN Nianhong, born in 1977, M. S., associate professor. His research interests include Internet+, big data, cross-border e-commerce. E-mail: wnhhong@126.com

Abstract: Current popular prediction methods of foreign trade product sales only respectively study prediction problems from angles of the third party platform or big data, lacking consideration of dynamic evolution prediction on product sales based on Internet platform, big data and cross-border e-commerce. To improve the efficiency of export sales prediction, to achieve scalability and dynamic evolution of prediction systems, with mining controllable relevance big data of cross-border e-commerce export sale based on "Internet+foreign trade" surroundings, personalized prediction mechanism and smart prediction algorithms, improving corresponding algorithms such as distributed quantitative calculation and centralized qualitative calculation, a dynamic prediction model on export sales based on "Internet+foreign trade"-driven controllable relevance big data of cross-border e-commerce was proposed. Finally, this model was verified and analyzed. The performance analysis results show that the model integrates fully openness and extensibility of "Internet+" and dynamic prediction advantages of big data, achieving dynamic, smart, quantitative, and qualitative prediction on export sales based on "Internet+foreign trade"-driven controllable relevance big data of cross-border e-commerce. The comprehensive prediction efficiency of the proposed model is obviously better than those of traditional models, and it has stronger dynamic evolution and higher utility.

Key words: Internet+foreign trade cross-border e-commerce controllable relevance big data export sale number dynamic prediction

0 引言

“互联网+外贸”环境下跨境电商活动比较复杂，出口产品销量预测受到需求、关税、物流、风险等多种因素的影响^[1]，但“互联网+外贸”跨境电商的核心是具有预测优势的大数据，这使得其出口产品销量预测相对容易，因此，设计一种“互联网+外贸”驱动下准确、安全、高效的基于跨境电商可控关联性大数据的出口产品销量预测模型已经成为备受瞩目的热门课题。目前，对产品销量预测的研究，文献[2-5]分别基于大数据分类方法、相关性分组规则、在线聚类方法以及互联网大数据匹配原则、语义分析、行为分析方法挖掘第三方平台中海量的跨境电商数据并建立了产品需求回归预测模型；文献[6-10]分别利用跨境电商历史销量数据建立产品销量预测模型；文献[11-15]通过定量和定性分析方法根据历史数据、流行度、新产品客户价值提出了基于大数据的预测模型。以上研究具有借鉴作用，但由于“互联网+”战略提出时间较短，“互联网+”强大的大数据在线预测优势没有显现，以上研究对于如何在“互联网+外贸”环境下融合运用大数据到跨境电商出口产品销量动态智慧的预测中目前并没有一个比较深入、有效的研究。

本文针对目前研究现状，从“互联网+外贸”环境下跨境电商出口产品销量可控关联性大数据挖掘、个性化预测机制、智慧预测算法等角度，尝试设计一个可量化、动态、智慧的“互联网+外贸”驱动下基于跨境电商可控关联性大数据的出口产品销量动态预测模型 (Dynamic Prediction Model on Export Sales based on controllable relevance big data of cross-border e-commerce，DPMES)，着重实现出口产品销量的动态预测目标，以便更好地指导外贸企业营销和优化库存策略，同时也促进互联网+、大数据、跨境电商技术的创新研究与应用发展。

1 DPMES总体框架 1.1 可控关联性销量大数据定义

定义1 可控关联性。

可控关联性是指影响研究结果的多个现象之间的可以控制的相互关联的性质^[16]。算法如下：假设u、v分别为两类产品，论域I_uv=I_u∪I_v是“互联网+外贸”定量空间，作为现象的集合；空间中的数据源矢量D=(I_uv, I_u, I_v)；I={I₁, I₂, …, I_n}是对象项目集合；u_i和v_i∈I_uv是定性概念u_i和v_i的一次定量信任约束；m×n阶矩阵R是基本用户的评分矩阵；u_i和v_i的确定度μ(u_i) 和μ(v_i)∈[0, 1]是有稳定倾向的随机数；给定目标用户a_i及其评分向量A (1, n)；μ:I_uv→[0, n]，∀u_i∈I_uv, u_i→μ(u_i)；对于∀i∈I_uv, 假设定量信任约束u_i和v_i之间的属性信任为S(u_i, v_i)，将S(u_i, v_i) 最大的n个基本数据组成集合。输入两个对象消息对m₁和m₂，对非False公钥，若m₁∧m₂返回值为False，则m₁和m₂可控关联无效；若返回值为非True，则m₁和m₂存在可控关联。

定义2 可控关联性销量大数据。

可控关联性销量大数据指满足以上算法的大数据，其算法如下：假设产品u和目标产品v的评分大数据项集合分别为I_u={u_i|i∈ N₊}和I_v={v_i|i∈ N}，若I_v≤I_u，即对于∀i∈I_v，都有i∈I_u成立，定量值u_i，v_i∈I_uv是定性概念的一次随机实现，则产品v的所有评分大数据项都已被产品u评价过，因此v不可能向u推荐可控关联；若I_v>I_u，即对于∀i∈I_u，都有i∈I_v成立，且当μ:I_uv→[0, 1]，有∀u_i∈I_uv, u_i→μ(u_i)，则产品u的所有评分大数据项都已被产品v评价过，因此产品v的大数据必定与u可控关联。

1.2 跨境电商出口产品销量可控关联性大数据挖掘

“互联网+外贸”环境下基于跨境电商的出口产品大数据挖掘首先基于“互联网+外贸”环境平台 (本平台由对外贸易经济合作部牵头，集中部署在国家互联网中心)，挖掘政策、产品种类、客户总产品需求、交易群体、客户购买心理、支付、报价、关税、库存、物流、订单、合同以及信誉、商品质量风险、退货或换货率、假冒伪劣产品、虚假宣传等数据。需要挖掘影响出口产品销量预测的关键因素和可控关联性大数据。挖掘模型如图 1所示。

图 1 “互联网+外贸”环境下跨境电商出口产品销量可控关联性大数据挖掘模型 Figure 1 Mining model of controllable relevance big data of cross-border ecommerce export sales based on "Internet+foreign trade" surroundings

具体挖掘流程和方法如下：

步骤1 设计基于预测行为的大数据在线分类与估计函数，对影响预测的可控关联性指标大数据进行在线估计和归类，确定大数据挖掘方向。文献[2]已有大数据分类相关方法的运用，但没有明确刻画数据的模糊现象，且没有融入互联网思维，不能实现互联网大数据在线分类功能，在此需要进行改进，提出基于预测行为的大数据在线分类与估计方法。

假设：在1.1节算法基础上，给定数据挖掘论域C及其非空子集A，(C，A)={(C_i, A_i)|i∈ N₊}定义为可信性测度集合，S={S_i=(S_i1, S_i2, S_i3)|i∈ N₊}表示“互联网+外贸”环境下第三方平台上文档和日志的集合，包括n个元素；SAM={SAM_i|i∈ N₊}和SAB={SAB_i|i∈ N₊}分别表示数据模糊现象和不确定性现象集合；分类主体与客体映射函数为F1=(FS_i→FC_i)。若彐C_i∈C∧(C_i, A_i)∧(S_i1, S_i2, S_i3)∧SAM∧SAB≠False，则基于预测行为的大数据在线分类与估计方法可用如式 (1) 所示的函数CF(i) 表示：

$ \begin{array}{l} CF{\rm{(}}i{\rm{) = }}\\ \frac{{A(1, n) \cdot {\rm{|}}{S_i}{\rm{|}} \cdot {\rm{|}}F{S_i}{\rm{|}} \cdot {I_{uv}} \cdot \mu ({v_i}) \cdot \sum\limits_{i{\rm{ = 1}}}^n {SA{M_i}} }}{{({I_{uv}}, {I_u}, {I_v}) \cdot \mu ({u_i}) \cdot {\rm{|}}{C_i}{\rm{|}} \cdot {\rm{|}}F{C_i}{\rm{|}} \cdot |{A_i}{\rm{|}} \cdot \sum\limits_{i{\rm{ = 1}}}^n {SA{B_i}} }} \end{array} $

(1)

改进后的CF(i) 将模糊现象和不确定性现象各自映射到不同的 (C_i, A_i) 中。这比改进前的方法更能刻画互联网大数据在线分类的模糊和不确定性。

步骤2 设计关联规则函数，找出这些可控关联性大数据之间的关联规律性进而整理可利用数据源。文献[3]提出了一个相关性分组规则，但该规则仅仅是对数据初步的相关，关联精度低，因此需要改进，提出更精确的关联规则函数。

在式 (1) 基础上，设K1、K2分别是可能性空间、必然性测度空间；S_i在A集中约束时间为t_i，ξ为定义在K1上的模糊变量；当前关联度J_i与不确定性变量x的相关性期望值E(x)=b，阈值为ω₀；满足映射“G:K1+K2→K1·K2”的约束时间表示一个最佳搜索时间T_i；关联度误差记为： $e ({S_i}, {S_j})=b-\sum\limits_{x=i}^j {E (x)} $，则改进的关联规则可用式 (2) 所示的函数表示：

$ CV({S_i}, {S_j}) = \frac{{\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^m {e({S_i}, {S_j}) \cdot \xi \cdot (|CF(i)-K1|)} } }}{{{\omega _0} \cdot \prod\limits_{i = 1}^n {(K2 \cdot {t_i} \cdot {T_i} \cdot {J_i})} }} $

(2)

改进后式 (2) 的作用就在于准确实现了可控关联性出口产品销量大数据之间的关联规律性。

步骤3 设计聚类功能更强的在线k-Means聚类与描述函数，使已归类可控关联性大数据相似性尽可能大，划分数据块。文献[4]提出了一种在线聚类方法，然而该方法划分的数据块明显存在越界现象。由于k-Means聚类方法具有关联聚类的功能，因此本文结合这两种方法进行改进，设计一个在线k-Means聚类与描述方法。

在式 (2) 定义基础上，假设预测主体、客体推荐的权重分别为ω₁，ω₂；聚类推荐集合为TJ={tj₁, tj₂, …, tj_n}，相关联描述的期望值Qx(tj_i, tj_j)=TS(SAM_ii, SAB_i)·e(S_i, S_j)，熵值Qn(tj_i, tj_j)=TS(SAM_ii, SAB_i)+e(S_i, S_j)，超熵值Qe(tj_i, tj_j)=TS(SAM_ii, SAB_i)/e(S_i, S_j)，则改进的在线k-Means聚类与描述方法可用式 (3) 所示的函数动态表示：

$ CVV({S_i}, {S_j}) = \frac{{Qx(t{j_i}, t{j_j}) \cdot \sum\limits_{i = 1}^m {\sum\limits_{j = 1}^n {(t{j_i} \cdot t{j_j} \cdot |{\omega _i} \cdot TJ|)} } }}{{Qn(t{j_i}, t{j_j}) \cdot Qe(t{j_i}, t{j_j}) \cdot CV({S_i}, {S_j})}} $

(3)

改进式 (3) 的作用就在于可以尽可能有效地划分相似性“互联网+外贸”跨境电商产品销量数据块。

步骤4 运用文献[5]提出的互联网大数据匹配原则、语义分析、行为分析方法，针对主要用户合理匹配保留可控关联性销量大数据的高度演化特征，通过线上或线下方式将影响预测的关键的可控关联性大数据导入，集成到互联网大数据仓库、跨境电商平台管理后台和外部应用程序接口，实现关键因子的集成，较好地解决了主体客体属性混淆、语义控制矩阵体现预测行为域间映射的问题。

1.3 个性化预测机制

根据图 1所示模型，构建如下个性化预测机制：

1)“增量演化-集成”式预测机制。

通过神经网络方法，实现增量式的动态演化集成的准确预测。其中增量演化因子属性可表示为B_n²元组Q=(B_n-1与B_n的数学组合), 组合数M₁=ω_iCER_n²。

2)“随机分布-关联”式预测机制。

通过机器学习，将随机分布的产品销量大数据关联起来进行预测。其中随机分布因子属性可表示为B_n²元组Q=(B_n-1与B_n的数学组合), 组合数M₂=CER_n²。

为定量定性实现个性化预测，需以数学形式来表达这两种机制。C & M-CVPDSS (Case-based and Multiplicative analytic hierarchy process-based Customer Value Prediction Decision Support System)^[11]较好表达了这种机制, 但其对新产品关键数据在随机分布、关联、演化、集成的指标化和相似度评估方面表现不足，因此，下面在1.1节可控关联性大数据定义和式 (1)~(3) 的基础上，对C & M-CVPDSS进行改进。

假设个性化的机器学习、神经网络的参照样本库并集为mint={CER(C₁C₁), CER(C₂C₂), …, CER(C_iC_j)}，某一个由市场需求、交易对象、市场运作、交易内容集成问题组成的随机分布、关联、演化问题集为AAT={AA_i|i∈ N₊}，数据分配函数^[12]为G(C_i，C_j)=(CER(C_iC_j)/n，m)，根据增量演化因子属性和随机分布因子属性元组，则“增量演化-集成”式预测机制和“随机分布-关联”式预测机制可分别用式 (4)、(5) 所示的数学函数来表达：

$ DT = \frac{{(\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^m {(|CER({C_i}{C_j})|} } \cdot |{B_j}|/G({C_i}, {C_j}))}}{{Q \cdot B_n^2 \cdot A{A_i} \cdot CVV({S_i}, {S_j})}} $

(4)

$ DTT = \frac{{\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^m {(|A{A_i} \cdot CVV({S_i}, {S_j})} } \cdot G({C_i}, {C_j})|/{B_j})}}{{DT \cdot Q \cdot B_n^2 \cdot CER({C_i}{C_j})}} $

(5)

其中:DT表示自动实现从复杂的增量演化、集成指标到具体的机制转换; DTT表示自动实现从抽象的随机分布、关联指标和相似度评估到具体的模式转换。式 (4)、(5) 自动实现从抽象的随机分布、关联、演化、集成指标和相似度评估到具体的机制、模式转换。

1.4 DPMES的智慧预测算法

步骤1 按式 (1) 对CF(i) 求解，按预测方向进行操作，当CF(i) 值域不为空集时，则“互联网+外贸”环境下可控关联性出口产品销量大数据预测资源规划设计与集成策略如式 (6) 所示：

$ ({{C}_{i}},{{A}_{i}})\text{:}\left\{ (C,A) \right\}\overset{CF(i)}{\longleftrightarrow}F{{S}_{i}}\text{:}\left\{ F{{C}_{i}}|i\in {{\boldsymbol{\text{N}}}_{+}} \right\} $

(6)

利用式 (6) 提取可控关联性预测影响因素，在线智慧分类，使预测实体间具有严格的物理映射关系。

步骤2 设计动态预测智慧集成策略，对预测构件进行动态地加入或删除操作。按式 (2) 计算模糊变量的定义域，抽取出DT的最大值DT_max和DTT的最小值DTT_min，选取若干个满足取值范围为[DTT_min, DT_max]的预测构件。集成策略可用如式 (7) 所示的约束系数λ表示：

$ \lambda = \frac{{({C_i}, {A_i})}}{{F{S_i}:F{C_i}}} $

(7)

步骤3 按照式 (7)，抽取K1和K2中所有属于 (C，A) 的任意满足阈值ω₀的ξ，寻找最佳搜索时间T_i。通过式 (2)~(3) 发现数据可控关联性和规律性。基于产品标识失效预测方法^[14]，设计可控关联性出口产品销量大数据动态预测评估集成策略，其函数如式 (8) 所示，即计算CVV(S_i, S_j) 对Qn(tj_i, tj_j) 的动态优化集成的隶属度M(S_i, S_j)：

$ M{\rm{(}}{S_i}, {S_j}{\rm{) = }}CVV{\rm{(}}{S_i}, {S_j}{\rm{)}} \cdot \lambda \cdot DT \cdot DTT $

(8)

步骤4 根据式 (4)~(5) 增量演化因子属性和随机分布因子属性划分预测行为类属BT，目标预测评分与实际评分之间的偏差为MAE，并使得簇之间的相似度达到最小值，而μ(x) 和μ(y) 之间的相似度达到最大值，将具备不同评分特征的若干目标预测行为划入隶属度不同的行为子集中，实现协同过滤推荐。

步骤5 设计作为本文算法最关键算法的分布式定量、集中式定性等动态优化预测方法。文献[11-15]运用定量定性方法来解决动态优化问题，但没有较好解决分布式和集中式优化计算问题。而多元线性回归方法^{[2-5, 12]}根据关键因子采用二维表，能较好地解决数据的分布式、集中式、相关性预测问题，因此本文基于此方法对定量和定性方法进行如下改进：根据Qe(tj_i, tj_j) 计算所有的M(S_i, S_j)，各节点根据其所有邻居节点当前位置，动态地选择下一个簇头节点。

为此按顺序分别令集群、分割、孤立点为：

$ \left\{ \begin{array}{l} HQ{\rm{ = }}\frac{{CV{{{\rm{(}}{S_i}, {S_j}{\rm{)}}}^{{T_i}}}{{\rm{)}}^{-1/4}}{{{\rm{(}}D{T^{{T_i}}}{\rm{)}}}^{-1/2}}{{{\rm{(}}CF{{{\rm{(}}i{\rm{)}}}^{{T_i}}}{\rm{)}}}^{-1/3}}}}{{M{S_i}, {S_j}}}\\ HF{\rm{ = (}}F{S_i}^{{T_i}}{{\rm{)}}^{ - 1/3}}{{\rm{(}}CVV{{\rm{(}}{S_i}, {S_j}{\rm{)}}^{{T_i}}}{\rm{)}}^{ - 1/2}}{{\rm{(}}DT{T^{{T_i}}}{\rm{)}}^{ - 1/4}}\\ HG{\rm{ = }}CVV{{\rm{(}}{S_i}, {S_j}{\rm{)}}^{\lambda /2}}CV{{\rm{(}}{S_i}, {S_j}{\rm{)}}^\lambda }{{\rm{(}}DT{T^\lambda }{\rm{)}}^{ - 1/3}} \end{array} \right. $

(9)

则分布式定量计算、集中式定性计算函数分别如式 (10)、(11) 所示，定量、定性预测出口产品销量。

$ TCL{\rm{(}}{S_i}{\rm{) = }}\frac{{HG \cdot |CF{\rm{(}}i{\rm{)|}} \cdot \sum\limits_{x = 1}^n {{\rm{(}}CV{\rm{(}}{S_i}, {S_j}{\rm{)}} \cdot DTT{\rm{)}}} }}{{HF \cdot F{S_i} \cdot DT \cdot \prod\limits_{x = 1}^n {{\rm{(}}\lambda \cdot CVV{\rm{(}}{S_i}, {S_j}{\rm{))}}} }} $

(10)

$ TCX{\rm{(}}{S_i}{\rm{) = }}\frac{{HQ \cdot |M{\rm{(}}{S_i}, {S_j}{\rm{)|}} \cdot F{S_i} \cdot \sum\limits_{x = 1}^n {CV{\rm{(}}{S_i}, {S_j}{\rm{)}}} }}{{CVV{\rm{(}}{S_i}, {S_j}{\rm{)}} \cdot DTT \cdot \prod\limits_{x = 1}^n {{\rm{(}}\lambda \cdot TCL{\rm{(}}{S_i}{\rm{))}}} }} $

(11)

步骤6 设 (C_iC_j)_max和 (C_iC_j)_min分别表示C_iC_j的最大值和最小值。重复步骤1~5，将C_i的代码特征C_iC_j固定在阈值区间[ω_i, ω_j]，判断 (C_iC_j)_max>ω_i∧(C_iC_j)_min < ω_j是否成立，若成立采用式 (10) 从海量大数据中查找产品正常的可控关联性大数据，构建分布式定量计算系统，得出定量预测结果；若不成立，采用式 (11) 从时空上将被求解的问题集群，建立集中式定性智慧预测模型。

步骤7 设计如式 (12) 所示的并行式综合预测函数公式：

$ TCZ{\rm{(}}{S_i}{\rm{) = }}TCX{{\rm{(}}{S_i}{\rm{)}}^\lambda } \cdot TCL{{\rm{(}}{S_i}{\rm{)}}^{{T_i}}} $

(12)

至此，算法结束。

2 DPMES动态预测模型构建

通过上述个性化预测机制和智慧预测算法，运用决策树构建DPMES动态预测模型, 如图 2所示。

图 2 DPMES动态预测模型 Figure 2 DPMES dynamic prediction model

构建路径如下：

首先，根据智慧预测算法步骤1，确定预测目标及选择用于建模的数据样本范围，并筛选、过滤得到具有预测特征和能力的若干因子。

其次，根据智慧预测算法步骤2~3，归纳可控关联性关键因子，利用“增量演化-集成”和“随机分布-关联”式预测机制验证关键特征数据序列一致性、可控关联性和规律性，量化各种随机分布的出口产品销量关键影响因素间的增量演化、集成关系，并利用λ动态地加入或删除预测构件。整合关键因子，预备、估算、清洗、非线性变换和校验数据。

然后，根据算法步骤4实现协同过滤推荐，划分预测行为子集。

再次，根据式 (10)~(12) 集中实时跟踪可控关联性大数据流，合成、错位对齐互联网大数据搜索指数，选出具有最大搜索指数的关键数据作为基准指数，构建模型，在线重配、赋予并行式大数据权重和相关系数，集中式定性预测哪些潜在客户最可能成为消费者和交易者，并对可能的交易线索进行显著性检验，分布式定量预测下一周期的销售量，实时预测出口产品未来销量结构走势。

最后，模型评价与应用。对每种预测方法的预测结果进行误差分析，如果方法综合时对前几期预测结果的平均误差越大，那么综合预测时应该使该方法对综合预测结果的影响程度越小。决策树根据筛选过滤出的权重和相关系数进一步划分出叶节点，待模型稳定后即可得到销量的综合预测值，并据此实现库存策略的优化，实现模型应用。

3 算法模型应用实例

根据图 1~2，前端采用Java语言 (或C#/C+)，后台采用开源PHP和SQL Server构建动态预测系统。

3.1 实验数据收集

本文所采用的数据均来自2015年1月至2016年7月阿里巴巴全球速卖通平台、对外贸易经济合作部“互联网+外贸”平台、中国跨境电商综合服务平台、国家统计局固定产品销量指标统计平台、浙江省跨境电商公共服务平台这5个平台内关于皮鞋、机械、电器等制造业出口产品的10000条固定数据以及平台外的若干实际动态数据。根据1.2节大数据挖掘模型，采用关键词挖掘工具从“销量关注度”和“因子关注度”两个维度去描述关键词，并以一周为一个更新周期。数据分析如表 1所示。

表 1 实验数据分析 Table 1 Experimental data analysis

3.2 实验结果对比分析

实验1 用以上10000条固定数据，验证改进方法及基于改进方法的个性化预测机制和智慧预测算法的合理性。过程如下：

1) 验证产品v的大数据必与产品u可控关联，E(x)=b按CF(i) 进行约束，计算隶属度、关键数据随机分布、关联、演化、集成的指标化和相似度评估，验证式 (1)~(9) 有效性。

2) 验证式 (10)~(12) 分布式定量、集中式定性预测、并行式综合预测函数。

验证指标包括重配误差 (出口产品销量大数据间存在的重新匹配差异)、特征点误差 (出口产品销量可控关联性特征匹配的差异)、误配率 (出口产品销量可控关联性大数据发生错误匹配的比率)，计算公式参见文献[13-15]的互联网搜索误差均方。为更好地表达误差关系，对该误差均方添加ω₀线性参数为 (b₁，b₂，…，b_n)，则重配误差、特征点误差、误配率公式分别用如式 (13) 所示的CPW(v, u)、APW(v, u)、WPR(v, u) 函数表示：

$ \left\{ \begin{array}{l} CPW{\rm{(}}v, u{\rm{) = }}\frac{{M{{{\rm{(}}{S_i}, {S_j}{\rm{)}}}^\lambda } \cdot \sqrt {CV{{{\rm{(}}{S_i}, {S_j}{\rm{)}}}^{{\omega _0}}} + TCX{{{\rm{(}}{S_i}{\rm{)}}}^2}} }}{{CVV{{{\rm{(}}{S_i}, {S_j}{\rm{)}}}^{{T_i}}} \otimes {\rm{(}}TCZ{\rm{(}}{S_i}{\rm{)}} \cdot TCL{\rm{(}}{S_i}{\rm{))}}}}\\ APW{\rm{(}}v, u{\rm{) = }}\frac{{\prod\limits_{i = 1}^n {TCX{{{\rm{(}}{S_i}{\rm{)}}}^3}} \cdot M{{{\rm{(}}{S_i}, {S_j}{\rm{)}}}^{{\omega _0}/2}} \cdot CPW{\rm{(}}v, u{\rm{)}}}}{{D{T^{{T_i}}} \cdot TCZ{{{\rm{(}}{S_i}{\rm{)}}}^{\lambda /3}} \cdot TCL{\rm{(}}{S_i}{\rm{)}}}}\\ WPR{\rm{(}}v, u{\rm{) = }}\frac{{\sqrt[{^{{T_i}}}]{{TCL{{{\rm{(}}{S_i}{\rm{)}}}^3} \cdot TCX{\rm{(}}{S_i}{\rm{)}}}}}}{{APW{\rm{(}}v, u{\rm{)}} \cdot DT{T^{{\omega _0}}} \cdot TCZ{{{\rm{(}}{S_i}{\rm{)}}}^{{b_n}/4}}}} \end{array} \right. $

(13)

验证结果分析如图 3所示。从图 3可以看出：重配误差散点图、特征点误差散点图、误配率散点图均为单调、并行递增形式，当散点图平滑趋近时则说明个性化预测机制更靠近实际预测结果；当分析先行的归一化拟合数据指标对出口产品销量波动的预测效率时，以改进算法作为引导方法的预测效率最高。这说明对改进方法以及基于此的个性化预测机制和智慧预测算法的设计是科学合理的。

图 3 改进算法验证结果直观散点图 Figure 3 Scatter diagram for verify results of improved algorithm

实验2 基于实验1，仍然使用以上10000条固定数据进行10000次实验，实验获得的平均值作为结果数据，将DPMES与文献[2-5]所建模型及C & M-CVPDSS模型^[11]、产品标识失效预测模型^[14]的性能进行对比。

评价本实验结果的指标^[1-15]如下：可信性测度，即表示预测结果的可信程度，参考值为16~22；不确定性区分度，即区分预测结果的多种可能状态的程度，参考值为10~15；最佳搜索时间，即衡量动态预测整体耗费的时间，参考值为10~15 s；误差系数，由重配误差、特征点误差、误配率公式综合得出，参考值为5~7；可控关联度，该指标和以上4个指标相联系，参考值为10~14。具体计算过程见文献[1-15]，其公式按顺序分别用式 (14)~(18) 所示的函数表示：

$ KXX{\rm{(}}x{\rm{) = }}\frac{{TCZ{\rm{(}}{S_i}{\rm{)}} \cdot \sqrt {TCL{\rm{(}}{S_i}{\rm{)}} \cdot M{{{\rm{(}}{S_i}, {S_j}{\rm{)}}}^\lambda }} }}{{{{{\rm{(}}CPW{{{\rm{(}}v, u{\rm{)}}}^{{\omega _0}}} + TCX{{{\rm{(}}{S_i}{\rm{)}}}^2}{\rm{)}}}^{{T_i}}}}} $

(14)

$ NQQ{\rm{(}}x{\rm{) = }}\frac{{TCZ{{{\rm{(}}{S_i}{\rm{)}}}^{{T_i}}} \times TCL{\rm{(}}{S_i}{\rm{)}} \oplus M{{{\rm{(}}{S_i}, {S_j}{\rm{)}}}^\lambda }}}{{APW{{{\rm{(}}v, u{\rm{)}}}^{^{{\omega _0}}}} \otimes TCX{{{\rm{(}}{S_i}{\rm{)}}}^{{b_n}}}}} $

(15)

$ ZJS{\rm{(}}x{\rm{) = }}\frac{{TCZ{{{\rm{(}}{S_i}{\rm{)}}}^{{b_n}}} \cdot TCL{{{\rm{(}}{S_i}{\rm{)}}}^{{\omega _0}}}}}{{WPR{{{\rm{(}}v, u{\rm{)}}}^{^{^{{T_i}}}}} \cdot \int_0^{^{{b_n}}} {KXX{\rm{(}}x{\rm{)}}} }} $

(16)

$ WCXS{\rm{(}}x{\rm{) = }}\frac{{APW{\rm{(}}v, u{\rm{)}} \cdot TCZ{{{\rm{(}}{S_i}{\rm{)}}}^{^\omega }} \cdot NQQ{{{\rm{(}}x{\rm{)}}}^{{b_n}}}}}{{WPR{\rm{(}}v, u{\rm{)}} \cdot CPW{{{\rm{(}}v, u{\rm{)}}}^{^{^{{T_i}}}}} \cdot \prod\limits_{x = 1}^n {KXX{\rm{(}}x{\rm{)}}} }} $

(17)

$ KKD{\rm{(}}x{\rm{) = }}\frac{{WCXS{\rm{(}}x{\rm{)}} \cdot WPR{\rm{(}}v, u{\rm{)}} \cdot APW{\rm{(}}v, u{\rm{)}}}}{{NQQ{{{\rm{(}}x{\rm{)}}}^{{b_n}}} \cdot \sum\limits_{x = 1}^n {{\rm{(}}KXX{\rm{(}}x{\rm{)}}} \cdot ZJS{\rm{(}}x{\rm{))}} \cdot CPW{\rm{(}}v, u{\rm{)}}}} $

(18)

实验结果如表 2所示。

表 2 各种模型的性能对比 Table 2 Performance comparison of various models

从表 2可以发现，当固定销量指标大于期望值时，即产品销售趋热时，对增量指标的预测更接近平稳、准确的实际预测值；反之则销量同比减少率在风险线附近徘徊。无论是产品销量期望预测指标还是实际预测指标，DPMES的综合预测效果明显优于其他模型。

实验3 分别通过以上5个平台的样本外预测和波动预测考察DPMES的未来预测效率。

1) 样本外分布式定量、集中式定性预测效率。

固定指标样本外预测的均方误差为：

$ MSE{\rm{(}}{S_i}{\rm{) = }}\frac{{KXX{\rm{(}}x{\rm{)}} \cdot WCXS{\rm{(}}x{\rm{)}} \cdot TCL{{{\rm{(}}{S_i}{\rm{)}}}^{{T_i} \cdot e}}}}{{KKD{\rm{(}}x{\rm{)}} \cdot TCZ{{{\rm{(}}{S_i}{\rm{)}}}^\lambda } \cdot MAE}} $

(19)

根据MSE(S_i) 计算样本外预测的分布式定量、集中式定性误差百分比，可以采用以下方法对比预测结果：使用CV(S_i, S_j) 的多维分解方法和可联性等级，考虑CVV(S_i, S_j) 对误差关系的影响，在同比增长率偏低时下一周期预测误差达到最大；考虑TCZ(S_i) 对随机预测信任关系的影响，预测误差具有可比性。

2) 并行式综合波动预测效率。

基于前期的平台内固定和平台外若干实际动态样本数据，同样利用式 (10)~(19)，对预测时间段进行波动预测以并行式综合考察DPMES预测效果对出口产品销量未来一年 (分四个季度) 波动的预测效率。评价指标有预测误差比率 (总体预测结果的误差比)、置信度 (表示为近期的出口产品销量波动预测精度的置信程度)、库存优化效率 (根据综合预测结果的库存优化性价比) 等，具体计算过程见文献[13-15]，其计算公式按顺序分别用式 (20)~(22) 所示的函数表示：

$ YWR{\rm{(}}x{\rm{) = }}\frac{{WCXS{\rm{(}}x{\rm{)}} \oplus CPW{{{\rm{(}}v, u{\rm{)}}}^{\lambda \cdot e}} \cdot APW{{{\rm{(}}v, u{\rm{)}}}^{{T_i}}}}}{{TCZ{{{\rm{(}}{S_i}{\rm{)}}}^{\lambda \cdot {T_i}}} \cdot WPR{\rm{(}}v, u{\rm{)}} \cdot MSE{\rm{(}}{S_i}{\rm{)}}}} $

(20)

$ ZXCD{\rm{(}}x{\rm{) = }}\frac{{KXX{\rm{(}}x{\rm{)/}}CPW{{{\rm{(}}v, u{\rm{)}}}^{\lambda \cdot {T_i}}} \cdot APW{{{\rm{(}}v, u{\rm{)}}}^{{T_i}}}}}{{TCZ{\rm{(}}{S_i}{\rm{)}} \otimes NQQ{{{\rm{(}}x{\rm{)}}}^{\lambda \cdot e}} \cdot YWR{\rm{(}}x{\rm{)}}}} $

(21)

$ KCYR{\rm{(}}x{\rm{) = }}\frac{{YWR{\rm{(}}x{\rm{)}} \cdot \sum\limits_{i = 1}^n {{\rm{(}}TCX{\rm{(}}{S_i}{\rm{)}} \cdot TCL{{{\rm{(}}{S_i}{\rm{)}}}^{\lambda \omega }}{\rm{)}}} }}{{APW{{{\rm{(}}v, u{\rm{)}}}^{{T_i}}} \cdot TCZ{\rm{(}}{S_i}{\rm{)}} \times ZXCD{{{\rm{(}}x{\rm{)}}}^{\lambda \cdot e}}}} $

(22)

预测结果如表 3所示。从表 3可看出，各季度销量预测值呈增长趋势，而预测误差比率、置信度、库存优化效率基本上在可接受的范围内。基于各季度的并行式综合预测结果，可以计算出各季度的累积增长率，这与实际的结果非常接近，因此基于平台内和平台外样本数据的DPMES预测结果对出口产品销量波动有较髙的预测精度和库存效率。

表 3 基于平台内和平台外样本数据的DPMES预测结果 Table 3 DPMES prediction results based on sample data inside and outside the platform

4 结语

基于预测行为的大数据在线分类与估计方法、关联规则函数、在线k-Means聚类与描述函数以及个性化预测机制、分布式定量、集中式定性、并行式综合预测方法建立起来的DPMES预测算法和模型具有科学性、合理性，解决了一些理论和实际问题，充分融合了“互联网+”的开放性、可延伸性、在线化和大数据动态演化性及预测优势，实现了“互联网+外贸”驱动环境下基于跨境电商可控关联性大数据的出口产品销量动态、智慧、定量化、定性化预测，对外贸企业高效营销、制订高效的库存规划具有参考价值。

但是，鉴于“互联网+”、大数据都是高度复杂的技术，本文的研究仅仅对互联网+和大数据技术进行应用，虽然实际过程中也对这些计算机科学技术进行了创新，但是并不容易实现，从而一定程度上降低了系统的性能，因此今后本文作者将继续对互联网+、跨境电商、大数据技术及融合算法继续展开研究。

参考文献

[1]	王翀. 跨境电商是有出有进的"互联网+外贸"[J]. 杭州 (周刊), 2015 (14) : 20-21. ( WANG C. Cross-border e-commerce is the "Internet+foreign trade" with import and export[J]. Hangzhou (Weekly), 2015 (14) : 20-21. )
[2]	KULKARNI G, KANNAN P K, MOE W. Using online search data to forecast new product sales[J]. Decision Support Systems, 2012, 52 (3) : 604-611. doi: 10.1016/j.dss.2011.10.017
[3]	KAWA A, ZDRENKA W. Conception of integrator in cross-border e-commerce[J]. Scientific Journal of Logistics, 2016, 12 (1) : 63-73.
[4]	ASOSHEH A, SHAHIDI-NEJAD H, KHODKARI H. A model of a localized cross-border e-commerce[J]. I-Business, 2012, 4 (2) : 136-145.
[5]	OKSANEN T. Use of demand forecast in operational purchasing[EB/OL].[2016-02-03]. http://www.theseus.fi/bitstream/handle/10024/97344/Tuomas_Oksanen.pdf?sequence=1.
[6]	崔东佳. 大数据时代背景下的品牌汽车销量预测的实证研究——以网络搜索数据为例[D]. 开封: 河南大学, 2014: 5-44. ( CUI D J. An empirical study of automobile sale forecast under the background of big data-based on Web search data[D]. Kaifeng: Henan University, 2014: 5-44. )
[7]	孔令顶. 基于互联网搜索量的大众途观汽车销量预测研究[J]. 时代金融, 2015 (30) : 222-226. ( KONG L D. Prediction research on the Tiguan sales based on Internet searches[J]. Times Finance, 2015 (30) : 222-226. )
[8]	李铖瀚. 基于海量数据的销售预测研究与实现[D]. 杭州: 浙江理工大学, 2015: 2-57. ( LI C H. Research and implementation of sales forecast based on massive data[D]. Hangzhou: Zhejiang Sci-Tech University, 2015: 2-57. )
[9]	周昊明. 销量数据挖掘技术及电子商务应用研究[D]. 广州: 广东工业大学, 2014: 3-67. ( ZHOU H M. Research on sales data mining technology and e-commerce application[D]. Guangzhou: Guangdong University of Technology, 2014: 3-67. )
[10]	HE Z Z, ZHANG Z F, CHEN C M, et al. E-commerce business model mining and prediction[J]. Frontiers of Information Technology and Electronic Engineering, 2015, 16 (9) : 707-719.
[11]	罗新星, 邓丽, 赵玉洁. 基于CBR和MAHP的新产品客户价值预测决策支持系统[J]. 计算机集成制造系统, 2014, 20 (10) : 2403-2410. ( LUO X X, DENG L, ZHAO Y J. Decision support system for customer value prediction of new product based on CBR and MAHP[J]. Computer Integrated Manufacturing Systems, 2014, 20 (10) : 2403-2410. )
[12]	杨波, 刘勇, 牟少敏, 等. 大数据背景下山东省二代玉米螟发生程度预测模型的构建[J]. 计算机研究与发展, 2014, 51 (Suppl2) : 160-165. ( YANG B, LIU Y, MU S M, et al. Based on big data: the establishment of meteorological forecast model for the occurrence degree of the second generation of corn borer in Shandong[J]. Journal of Computer Research and Development, 2014, 51 (Suppl2) : 160-165. )
[13]	孔庆超, 毛文吉. 基于动态演化的讨论帖流行度预测[J]. 软件学报, 2014, 25 (12) : 2767-2776. ( KONG Q C, MAO W J. Predicting popularity of forum threads based on dynamic evolution[J]. Journal of Software, 2014, 25 (12) : 2767-2776. )
[14]	王健, 何卫平, 李夏霜, 等. 基于制造历史数据的产品标识失效预测与补救方法[J]. 计算机集成制造系统, 2015, 21 (9) : 2494-2503. ( WANG J, HE W P, LI X S, et al. Prediction and remediation of failed product identification based on manufacturing history data[J]. Computer Integrated Manufacturing Systems, 2015, 21 (9) : 2494-2503. )
[15]	王炼, 贾建民. 基于网络搜索的票房预测模型——来自中国电影市场的证据[J]. 系统工程理论与实践, 2014, 34 (12) : 3079-3090. ( WANG L, JIA J M. Forecasting box office performance based on online search:evidence from Chinese movie industry[J]. Systems Engineering-Theory and Practice, 2014, 34 (12) : 3079-3090. )
[16]	岳笑含, 周福才, 林慕清, 等. 面向可信移动平台具有用户可控关联性的匿名证明方案[J]. 计算机学报, 2013, 36 (7) : 1434-1447. ( YUE X H, ZHOU F C, LIN M Q, et al. Anonymous attestation scheme with user-controlled-linkability for trusted mobile platform[J]. Chinese Journal of Computers, 2013, 36 (7) : 1434-1447. )