近年来,房价问题日渐升温,人们在关注房价问题的过程中,最关注的是房价的未来走势。但是,由于房价在历史时点上的数据波动巨大且具有信噪比低、信噪难以分离的特点,另外,影响房屋价格的不仅有时间,还有房屋面积、所处区域、房屋配置等指标,导致房屋指标与房价关系难以用传统预测方法构造,更难以给出有效的预测方法。因此如何高效处理房价数据使其适用于拟合和预测,具有重要的研究价值。
以往的研究主要立足于房价预测。杨楠等[1]采用灰色马尔可夫模型和n次多项式模型预测了全国房屋年平均价格;李佳音[2]提出市场比较法来预测房价;闫妍等[3]提出了基于TEI@I方法论的房价预测方法;Anglin[4]引入平均房价增长率及CPI等指标建立VAR模型来预测多伦多房价。但对于我国的房产市场,上述方法各有其适用范围和局限性。灰色马尔科夫模型只能预测短期趋势;基于TEI@I方法论的方法只适用于中短期预测;市场比较预测方法及国外模型只能比较成熟程度高、运作完善的房产市场,中国房产市场显然不具备类似条件。
有效的数据分析处理工具是探究我国房产市场发展规律和预测房价的关键。在诸多数据处理方法中,小波变换是一种信号的时间-尺度分析方法,它具有多分辨率分析的特点,能够在时、频两域较好地呈现信号的局部特征。基于小波函数的多尺度特性,可以将历史房价看作特定的信号,通过小波分析将其分解重构,再进行降噪处理,从而降低房价数据的非平稳性,使其能够运用传统预测模型来进行预测。但是除了Haar小波之外,现有研究常用的单小波不能同时满足正交、对称及紧支性(在实数范围内),而多小波可同时拥有这些应用上所需要的优良性质。因此本文提出基于多小波的方法,结合支持向量机预测模型,对北京市房屋市场价格进行分析预测。实验结果表明,相对于单小波,理论性质优越的多小波在应用上也表现出良好的特性。
1 基本理论 1.1 小波分析及其分解重构算法多小波分析(multi wavelet analysis, MWA)是小波理论的新发展,单小波由一个母函数(基本函数)通过伸缩平移得到的小波基构成,而多小波的基本母函数不止一个,因此其同时具有对称性、正交性、插值性、紧支性和高阶消失矩等特点,在理论上是优于单小波的一种数据分析方法。
小波分析的基本框架是多分辨率分析(MRA)[5]。当L2(R)空间一串闭子空间序列{Vj}j∈Z同时满足单调性(
基于多分辨率分析的定义,
$ \left\{ \begin{array}{l} \varphi (t) = \sum\limits_k {{h_k}} \varphi (2t - k)\\ \psi (t) = \sum\limits_k {{g_k}} \varphi (2t - k) \end{array} \right.\;\;\;\;\;k \in Z $ | (1) |
式中,
类似地,由MRA可以推出r重分辨率分析(MRAr)的定义[7],构造相似的双尺度方程
$ \left\{ \begin{array}{l} \mathit{\boldsymbol{ \boldsymbol{\varPhi} }}(t) = \sum\limits_k {{\mathit{\boldsymbol{H}}_k}} \mathit{\boldsymbol{ \boldsymbol{\varPhi} }}(2t - k)\\ \mathit{\boldsymbol{ \boldsymbol{\varPsi} }}(t) = \sum\limits_k {{\mathit{\boldsymbol{G}}_k}} \mathit{\boldsymbol{ \boldsymbol{\varPsi} }}(2t - k) \end{array} \right.\;\;\;\;k \in Z $ | (2) |
对任意的输入信号,有小波分解公式
$ \left\{ \begin{array}{l} f(t) = \sum\limits_{i = 1}^r {\sum\limits_{k \in Z} {{c_{i,J,k}}} } {\varphi _{i,J,k}}(t) = \\ \;\;\;\;\;\;\;\sum\limits_{i = 1}^r {\sum\limits_{k \in Z} {{c_{i,{J_0},k}}} } {\varphi _{i,{J_0},k}}(t) + \\ \;\;\;\;\;\;\;\sum\limits_{i = 1}^r {\sum\limits_{{J_0} < j < J} {\sum\limits_{k \in Z} {{d_{i,j,k}}{\psi _{i,j,k}}(t)} } } \\ {c_{i,{J_0},k}} = \int f (t){\varphi _{i,{J_0},k}}(t){\rm{d}}t\\ {d_{i,j,k}} = \int f (t){\psi _{i,j,k}}(t){\rm{d}}t \end{array} \right. $ | (3) |
基于式(1)可知,多分辨率分析的主要思想是将L2(R)分解为一串具有不同分辨率的子空间序列,将L2(R)中的函数f(t)描述为具有一系列近似函数的逼近极限[8],其中每一个近似函数都是f(t)在不同分辨率子空间上的投影,从而通过分析这些投影来获得近似函数的形态和特征。
本文将价格信号分成5层,其小波分解树示意图如图 1所示。
从图中可以看出,通过小波分解可得到逼近分量系数(低频部分)和细节分量系数(高频部分),其分解具有以下关系
$ f(t) = {A_1} + {D_1} + {D_2} + {D_3} + {D_4} + {D_5} $ | (4) |
式中,A1为第一层分解的低频部分分量系数,Di为第i层分解的高频部分分量系数。
通常,有用信号表现为低频部分,噪声信号表现为高频部分。本文对小波分解的高频系数进行门限阈值量化处理,然后根据小波分解的第5层低频系数和经过量化后的1~5层高频系数进行小波重构,达到消除噪声的目的。由于本文的研究对象是价格变化,其在时间尺度下呈连续趋势,所以采用能够平滑化处理的软阈值进行量化去噪。
1.2 支持向量机支持向量机(SVM)[9]是一种分类机器学习算法,其基本原理是利用核函数将输入样本空间映射到高维特征空间,然后在这个高维空间中求解最优分类面,得到输入与输出变量的非线性关系。
在SVM算法中,给定特征空间上的训练样本
$ \begin{array}{l} \mathit{\boldsymbol{T}} = \left\{ {\left( {{\mathit{\boldsymbol{x}}_1},{y_1}} \right),\left( {{\mathit{\boldsymbol{x}}_2},{y_2}} \right), \cdots ,\left( {{\mathit{\boldsymbol{x}}_n},{y_n}} \right)} \right\},{\mathit{\boldsymbol{x}}_i} \in {R^n},\\ {y_i} \in R,i = 1, \cdots ,n \end{array} $ | (5) |
式中,n表示样本实例个数,xi表示第i个特征向量,yi为第i个预测值。
对于训练样本,存在一个分类面(w·x)+b=0,通过引入松弛变量ξi,构建的最优分类面满足
$ {y_i}\left( {\left( {\mathit{\boldsymbol{w}} \cdot {\mathit{\boldsymbol{x}}_i}} \right) + b} \right) \ge 1 - {\xi _i},{\xi _i} \ge 0,i = 1,2, \cdots n $ | (6) |
式中,w为权值向量,b为偏差项。
为了使预测值落入不同的分类面,要保证分类间隔最大,即目标函数O(w, ξi)值最小,此时最优分类面构造问题即转化为二次规划问题式(7)
$ \left\{ \begin{array}{l} \min O\left( {\mathit{\boldsymbol{w}},{\xi _i}} \right) = \frac{1}{2}(\mathit{\boldsymbol{w}} \cdot \mathit{\boldsymbol{w}}) + C\sum\limits_{i = 1}^n {{\xi _i}} \\ {\rm{s}}{\rm{.t}}{\rm{. }}{y_i}\left( {\left( {\mathit{\boldsymbol{w}} \cdot {\mathit{\boldsymbol{x}}_i}} \right) + b} \right) \ge 1 - {\xi _i},\\ \;\;\;\;\;{\xi _i} \ge 0,i = 1,2, \cdots ,n \end{array} \right. $ | (7) |
式中,C是定义为常数变量的惩罚参数。
同时,引入核函数
$ \left\{ \begin{array}{l} \max L(\mathit{\boldsymbol{w}},b,\alpha ) = \sum\limits_{i = 1}^n {{\alpha _i}} - \\ \;\;\;\;\;\;\;\frac{1}{2}\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^n {{\alpha _i}} } {\alpha _j}{y_i}{y_j}K\left( {{\mathit{\boldsymbol{x}}_i},{\mathit{\boldsymbol{x}}_j}} \right)\\ {\rm{s}}.{\rm{t}}.\;\;\;\;\sum\limits_{i = 1}^n {{\alpha _i}} {y_j} = 0,{\alpha _i} \ge 0 \end{array} \right. $ | (8) |
由式(8)得到非线性分类问题的判别函数
$ f(\mathit{\boldsymbol{x}}) = {\rm{sgn}} (\mathit{\boldsymbol{w}}\phi (\mathit{\boldsymbol{x}}) + b) = {\rm{sgn}} \left( {\sum\limits_{i = 1}^n {{\alpha _i}} {y_i}K(\mathit{\boldsymbol{x}},\mathit{\boldsymbol{y}}) + b} \right) $ | (9) |
根据式(6)判别x的类别,即为预测值。
2 模型建立 2.1 数据处理及分析收集北京市房屋市场2010—2018年的421891条相关数据,包括每天每笔成交的单价、面积、户型、朝向、装修类别、电梯数、楼层、总层数、建造年代、房屋结构、所处区域等相关指标,删除其中有缺失值的记录。
由于收集的数据来自于每天成交网站,考虑到房价的时间成本,将单价以0.7%的贴现率按季度贴现成现值。处理后的房价数据原始状态散点图如图 2所示。
由图 2可以看出,在本预测模型中,房价数据信噪比低,信噪难以有效分离;且数据维数高、波动大,不能直接应用于预测模型。
利用小波变换可将任一时间段内的数据高频部分和低频部分分离,用高频部分反映房屋市场的短期变化趋势,低频部分反映中、长期变化趋势,使数据适用于传统预测模型。
2.2 小波基的选择小波基可以用较少非零小波系数有效逼近实际函数,这一特性被广泛应用于数据压缩、信号去噪以及快速计算中,所以选择小波基应以最大量产生接近于零的小波系数为最优[10]。在小波分析的应用中,不同的小波基或小波函数的选取会产生不同的结果,要把握小波函数的特征,包括消失矩、正则性、紧支性、对称性以及正交性和双正交性等,根据应用的需要选择合适的小波基。
表 1简要概括了常用小波基的特点[11]。本文基于小波基的特点选取了最简单的Haar小波基函数以及目前应用最广的Daubechies(Db)系列小波进行研究。
Haar小波基函数是所有母函数中最简单的一种,也是唯一有对称和反对称的单小波,但Haar小波的消失矩为1,对大于一次多项式的函数的消失效果不好。Db小波基系列函数是基于消失矩构造的p阶消失矩的小波,同时具有良好的正则、正交和紧支性性质,因此应用十分广泛,本文选取Db5作为母函数。
2.3 多小波的选取 2.3.1 GHM多小波GHM多小波是由Geronimo等[12]通过分形插值函数的方法给出的多小波系统,其支集长度为4。GHM多小波的尺度函数和小波函数都具有紧支性,其支集分别为[0, 1]和[0, 2],因此具有良好的局域性;其尺度函数和小波函数具有对称性,尺度函数是整数的平移正交,变换后能够保持能量恒定;同时系统存在二阶逼近。
2.3.2 CL多小波CL多小波是Chui等[13]利用对称性给出的支集为[0, 2]和[0, 3]的多小波系统,包括CL3多小波(支集长度为3)和CL4多小波(支集长度为4),其中CL3多小波位于区间[0, 2]上,CL4多小波位于区间[0, 3]上。CL多小波的尺度函数和小波函数都具有紧支性,两个尺度函数分别与两个小波函数对称和反对称,保证了其线性相位;CL多小波同时具有正交性;系统存在三阶逼近,其逼近性能优于GHM多小波。
2.4 核函数和参数的选择以小波分析分解重构后的数据作为样本,建立SVM预测模型,预测后通过特征系数重构给出最终预测结果。
由于预测结果不能保证其线性,使用非线性SVM和核函数将变量映射到高维空间,选取了高斯核[14]
$ K(\mathit{\boldsymbol{x}},\mathit{\boldsymbol{y}}) = \exp \left( { - \gamma |\mathit{\boldsymbol{x}} - \mathit{\boldsymbol{y}}{|^2}} \right) $ | (10) |
式中,核参数
对收集的房价数据进行小波去噪处理,选取其中一个区域的约5000个数据进行降噪,比较Haar小波、Db小波、GHM多小波以及CL多小波的重构效果,然后用小波处理后的数据及其影响因子进行SVM房价预测,比较不同方法处理数据对预测结果的影响。
3.1 整体趋势选取不同的单小波和多小波作为小波基对数据进行去噪,用Matlab编程,运行后分别得到基于Haar单小波、Db5单小波、GHM多小波及CL多小波软阈值去噪前后的散点对比图,如图 3所示。
图 3中黑、白色点分别为原始数据散点和去噪后散点。通过对比可以看到,无论是单小波还是多小波,去噪后数据的整体趋势与原始数据一致,说明小波去噪能保留数据的长期变化特征。
3.2 分解重构效果为了说明单小波以及多小波分解重构对信号的影响,选取处理前后的数据标准误差、中位标准误差和平均标准误差对重构结果进行评价,结果如表 2所示。
由表 2数据综合比较看出,采用GHM多小波进行信号的分解、重构,能够较好地保留原始信号中的特征信息,且从该组数据来看,多小波的分解重构能力强于单小波。
3.3 房价预测效果根据北京市房价的特点,将单小波(Haar、Db5)处理后数据以及多小波(GHM、CL)处理后数据相对应的5000个样本代入SVM模型进行预测,并与原始数据直接预测的结果进行对比。将实际样本落入的等级称为“原始等级”,预测值落入“原始等级”且误差在20%区间内的预测结果可以接受。将落入可接受区间内的占比作为预测准确率,预测效果对比如表 3所示。可以看出,用CL多小波处理后的数据预测准确率最高,预测效果最好,说明基于CL多小波的去噪处理能够相对最大程度地保留原始房价数据特征,且降低数据波动性,适合用于此类预测。
(1) 基于多小波的对称性、正交性、紧支性等优点,比较了以Haar、Db5为母函数的单小波分析,以及经过采样预处理的GHM和CL多小波分析的重构效果,证明小波去噪可以保留房价的变化趋势;通过重构误差分析发现多小波分析处理信号效果误差优于单小波,多小波分析更能保持原有信息的特征。
(2) SVM模型房屋价格预测结果表明,CL多小波分析处理后数据的预测结果准确率最高;在非平稳序列的预测中,小波分析处理数据能够优化传统预测结果,而多小波分析预测准确率高于单小波分析。
[1] |
杨楠, 邢力聪. 灰色马尔可夫模型在房价指数预测中的应用[J]. 统计与信息论坛, 2006, 21(5): 52-55. YANG N, XING L C. Application of grey-Markov model on the prediction of housing price index[J]. Statistics & Information Forum, 2006, 21(5): 52-55. (in Chinese) DOI:10.3969/j.issn.1007-3116.2006.05.012 |
[2] |
李佳音. 一种商品房价格预测方法[J]. 商品与质量, 2011(9): 219-220. LI J Y. A method for forecasting the price of commercial houses[J]. Trade and Quality, 2011(9): 219-220. (in Chinese) |
[3] |
闫妍, 徐伟, 部慧, 等. 基于TEI@I方法论的房价预测方法[J]. 系统工程理论与实践, 2007, 27(7): 1-9. YAN Y, XU W, BU H, et al. House price forecasting method based on TEI@I methodology[J]. Systems Engineering Theory & Practice, 2007, 27(7): 1-9. (in Chinese) DOI:10.3321/j.issn:1000-6788.2007.07.001 |
[4] |
ANGLIN P. Local dynamics and contagion in real estate markets[C]//The International Conference on Real Estates and Macro Economy. Beijing, 2006.
|
[5] |
孙延奎. 小波分析及其应用[M]. 北京: 机械工业出版社, 2005: 1-16. SUN Y K. Wavelet analysis and its application[M]. Beijing: Mechanical Industry Press, 2005: 1-16. (in Chinese) |
[6] |
唐远炎, 王玲. 小波分析与文本文字识别[M]. 北京: 科学出版社, 2004: 44-53. TANG Y Y, WANG L. Wavelet analysis and text recognition[M]. Beijing: Science Press, 2004: 44-53. (in Chinese) |
[7] |
MALLAT S. Wavelet for a vision[J]. Proceedings of the IEEE, 1996, 84(4): 604-614. DOI:10.1109/5.488702 |
[8] |
LEBRUN J, VETTERLI M. Balanced multi wavelets theory and design[J]. IEEE Transactions on Signal Processing, 1998, 46(4): 1119-1125. DOI:10.1109/78.668561 |
[9] |
丁世飞, 齐丙娟, 谭红艳. 支持向量机理论与算法研究综述[J]. 电子科技大学学报, 2011, 40(1): 1-9. DING S F, QI B J, TAN H Y. A survey of support vector machine theory and algorithms[J]. Journal of University of Electronic Science and Technology of China, 2011, 40(1): 1-9. (in Chinese) |
[10] |
李建平, 唐远炎. 小波分析方法的应用[M]. 重庆: 重庆大学出版社, 1998: 72-87. LI J P, TANG Y Y. Application of wavelet analysis method[M]. Chongqing: Chongqing University Press, 1998: 72-87. (in Chinese) |
[11] |
高成. Matlab小波分析与应用[M]. 2版. 北京: 国防工业出版社, 2007: 27-28. GAO C. Matlab wavelet analysis and application[M]. 2nd ed. Beijing: National Defense Industry Press, 2007: 27-28. (in Chinese) |
[12] |
GERONIMO J S, HARDIN D P, MASSPOPUST P R. Fractal functions and wavelet expansions based on several scaling functions[J]. Journal of Approximation Theory, 1994, 78: 373-401. DOI:10.1006/jath.1994.1085 |
[13] |
CHUI C K, LIAN J A. A study of orthonormal multi-wavelets[J]. Applied Numerical Mathematics, 1996, 20(3): 273-298. DOI:10.1016/0168-9274(95)00111-5 |
[14] |
奉国和. SVM分类核函数及参数选择比较[J]. 计算机工程与应用, 2011, 47(3): 123-128. FENG G H. SVM classification and function and parameter selection comparison[J]. Computer Engineering and Applications, 2011, 47(3): 123-128. (in Chinese) DOI:10.3778/j.issn.1002-8331.2011.03.037 |