2. 福建省网络安全与密码技术重点实验室(福建师范大学), 福州 350007
2. Fujian Province Network Security and Cryptography Laboratory(Fujian Normal University), Fuzhou Fujian 350007, China
对于回归分析模型,在许多场合下,因变量除了受到那些定量自变量的影响外,也会受到定性变量的影响。例如,对于一些如性别、种族、婚姻状况等这些无法定量度量或者无法直接观测的一类自变量,称为定性变量,也称为哑变量。引入哑变量会使得线性回归模型变得更复杂,但能对问题的描述简单明了,一个方程能达到多个方程的作用,而且更接近现实,使得模型更完美[1-2]。一般情况下,在哑变量的设置中,肯定类型通常取值为1,否定类型则取值为0;类似的,若是这种定性变量含有多种变量取值时,可以引入多个哑变量来处理。涉及线性回归模型的一种典型任务就是分析自变量对因变量的影响程度,这通常是通过分析自变量前的系数来解释影响程度。对于含有哑变量的回归模型,分析不同哑变量的重要程度也是一类重要的任务。现有的相关文献主要都是直接通过模型的回归系数(即,哑变量前的回归参数)来比较各哑变量在回归方程中的重要性程度, 其中:吴小英等[3]直接用哑变量前回归系数分析了借款用途对借款成功率的影响;Leistritz[4]在回归分析中使用哑变量,研究分析了哑变量的系数对各因子影响;Hardy[5]对哑变量系数的解释是给定相同x值的多个类别之间的y的差异;Grotenhuis等[6]研究认为所有哑变量前估计参数是与原始参考类别的偏差,进而用系数直接来分析各案例;Usman等[7]构建哑变量模型,直接用系数得出job_logistics和discipline_ECE这两项因素对毕业生的薪酬影响最小;Gürtler等[8]通过引入虚拟变量回归系数研究结果表明,交易复杂性、评级和再保险周期是巨灾债券保护(Catastrophe Bonds, CAT)的重要驱动因素;文献[9-12]都仅仅围绕哑变量前的系数来对各哑变量的重要性进行探究分析,得出的结论不是很明确;杨希等[13]在多元回归分析中引入哑变量,用回归系数仅仅发现各哑变量是否具有显著性,且仅得出正负影响;徐卫华等[14]引入控制变量和哑变量,构建产业结构优化升级的3个动态面板模型,直接利用回归系数分析其是否有显著性影响,而不能得出具体的结论。因此,当哑变量较多、回归方程较复杂时,这种用人眼观察的系数对比法则很难实施,哑变量回归系数的解释及其意义往往不正确或不能得出准确结论[15]。为了用客观方法代替这种人眼观察对比法,本文提出一种判定不同哑变量的相对重要性指数方法,用来衡量各哑变量对因变量的影响程度。
1 哑变量相对重要程度指数法在回归分析当中,常见的有解释变量(因变量)和被解释变量(自变量),而被解释变量的影响因素包含定量变量的因素外,还可以包含定性变量的因素。为了将定性变量引入回归模型,在模型中引入一种特殊的变量,即“哑变量”。使用哑变量可以使得我们在模型中引入定性回归元,使得模型更精确[16]。
1.1 含哑变量的回归模型的建立当在研究一个因变量与多个自变量之间的相关关系时,影响因变量的因素有很多,包括定量自变量,也包括定性自变量; 而这种定性自变量通常可以引入哑变量来处理,常取0、1等,这些编码值并不代表着具体数量的大小,它们没有数量大小关系,仅仅是用来表示哑变量中各个不同的分类类别。假设一个影响因素的定性自变量有k个分类类别(k个水平),为避免出现共线性,则通常需定义k-1个哑变量来表示这些分类类别[17]。设影响因变量Y的定量自变量为X,哑变量为D;D有k个分类类别,这里Xi=(X1i, X2i, …, Xmi)T、Dji=(D1i, D2i, …, D(k-1)i)T(其中i=1, 2, …, n,j=1, 2, …, k-1,Dj为第j个哑变量)和Yi分别是第i个观测值对应的定量自变量、哑变量和因变量,通常可以将含有哑变量的回归模型写成:
$ {Y_i} = {\alpha _0} + {\alpha _1}{X_{1i}} + \ldots {\rm{ + }}{\alpha _m}{X_{mi}} + {\beta _1}{D_{1i}} + \ldots {\rm{ + }}{\beta _{k - 1}}{D_{(k - 1)i}} + \\ \quad \quad {\gamma _1}{D_{1i}}{X_{1i}} + \ldots {\rm{ + }}{\gamma _{k - 1}}{D_{(k - 1)i}}{X_{mi}} + {\varepsilon _i} $ | (1) |
式中:k代表哑变量中有k个分类类别;α1, α2,…, αm为m个定量自变量的回归系数;α0, β1, …, βk-1为各哑变量的回归系数;γ1, γ2, …, γk-1为哑变量与各定量变量之间的交互影响回归系数,分别反映了各哑变量对因变量Y的平均影响程度,根据这些系数的t值检验来判断哑变量是否对因变量Y存在显著性影响;εi代表随机误差,通常假设εi是服从均值为0、方差为δ2的高斯分布,即εi~N(0, δ2),由此可以利用观测值来进行参数的估计。
1.2 哑变量的相对重要性指数设计对于判定各哑变量在回归模型中重要性程度,本文提出哑变量的相对重要性指数分析法,是分析一组哑变量D={D1, D2, …, Dk-1}与因变量Y之间的线性相关程度。本方法针对含哑变量的回归公式(1)。分解出含哑变量的回归方程中不含哑变量部分(记为A)和含哑变量部分(记为B)的回归平方和。然后,计算这两部分在该回归方程中所起作用的占比,依据该占比设计各哑变量在回归方程中的相对重要程度指数。设
$ \begin{array}{l} \sum\limits_{i = 1}^n {({{\hat y}_i}} - \bar y) = \sum\limits_{i = 1}^n {{{(A + B - \bar y)}^2}} = \\ \quad \sum\limits_{i = 1}^n {\left[ {{{(A + B)}^2} - 2 \cdot (A + B) \cdot \bar y + {{\bar y}^2}} \right]} = \\ \quad \sum\limits_{i = 1}^n {({A^2} + {B^2} + 2 \cdot A \cdot B - 2 \cdot A \cdot \bar y - 2 \cdot B \cdot \bar y + {{\bar y}^2})} = \\ \quad \sum\limits_{i = 1}^n {({A^2} - 2 \cdot A \cdot \bar y + {{\bar y}^2})} + \\ \quad \sum\limits_{i = 1}^n {({B^2} + 2 \cdot A \cdot B - 2 \cdot B \cdot \bar y)} \end{array} $ |
其中:
对含哑变量部分的回归平方和SSRDj(其中j=1, 2, …, k-1,Dj为第j个哑变量),求解出它占总平方和SSTDj的比例,于是哑变量重要性指数设计如下:
$ R_{{D_j}}^2 = \left\{ {\begin{array}{*{20}{l}} {\frac{{SS{R_{{D_j}}}}}{{SS{T_{{D_j}}}}},}&{SS{R_{{D_j}}} \ge 0}\\ {\frac{{|SS{R_{{D_j}}}|}}{{2|SS{R_{{D_j}}}| + SS{T_{{D_j}}}}},}&{SS{R_{{D_j}}} < 0} \end{array}} \right. $ | (2) |
式中:当SSRDj≥0时,SSRDj/SSTDj就是该哑变量对方程的影响力;当SSRDj < 0时,|SSRDj|/(2|SSRDj|+SSTDj)就是该哑变量对方程的影响力。因为,当SSRDj < 0时,离差平方和公式SSTDj=SSRAj-|SSRDj|+SSE,可变换为2|SSRDj|+SSTDj=SSRAj+|SSRDj|+SSE。可以看出,A部分回归平方和为了能减去B部分回归平方和来达到SSTDj,A部分回归平方和必然需要放大数值;另外,为展现出A部分回归平方和和B部分回归平方和(绝对值)数量在整体SSR中发挥的作用,比较的基础应是A部分回归平方和绝对值和B部分回归平方和绝对值之和。Aji、Bji分别为分解出含哑变量Dj的回归方程中的不含哑变量部分和含哑变量部分。SSRDj为分解出的哑变量部分的回归平方和,反映出各哑变量Dj对因变量Y取值变化的影响。SSTDj为含哑变量Dj的回归方程的总平方和,反映因变量的n个观测值与均值的总离差,且满足回归平方和与残差平方和之和。在此,本文用该相对重要性指数R2Dj来衡量各哑变量D1, D2, …, Dk-1与因变量Y之间的线性相关关系的密切程度,它反映了各哑变量在回归方程中所解释的变异在因变量总变异中所占的比例,即用该指数值来衡量各哑变量对回归方程中的影响力。
上述定义的相对重要性程度指数R2Dj的取值范围为0≤R2Dj≤1。其中:当R2Dj=0时,说明哑变量的回归平方和为0,即该哑变量的变动对因变量毫无影响,在回归方程中的影响力为0;当R2Dj=1时,说明哑变量的回归平方和等于总平方和,即因变量完全由该哑变量的变动所引起,在回归方程中的相对重要性程度为100%。当R2Dj越接近于1,说明哑变量的相对重要性程度越高,对方程的影响力越大;反之,当R2Dj越接近于0,说明哑变量的相对重要性程度越低,对方程的影响力越小。
2 实证分析实验数据是美国网贷平台Lending Club在2012年里49737笔有效借贷数据,每笔借贷样本属性主要包括借款金额、借款用途、借标人数、利息率、年利率、借款时长、资助金额(成功募集)、信用评级、FICO(Finance Controlling)评分、总信用额度、房屋所有权、月收入、债务对收入比率、循环信贷余额、循环信贷利用率、教育程度、地址、工作年限等信息。直观上看,借款用途说明了借款人借款的目的, 其必定是作为投资人重要的考量标准,所以借款用途对借款成功率必有一定的影响。为了探究借款用途对借款成功率的重要性影响程度,本文引入7个哑变量0~6。本文将以Lending Club平台数据为基础,通过其近年来的数据分析研究借款用途对借款成功率的影响。
在进行回归分析前,一些属性如借款金额、资助金额、月收入等与利息率或债务收入比率之间具有不同的量纲和量纲单位,为了消除不同量纲对实验结果的影响,把每个变量的数据标准化为均值为0、标准差为1的数据,使得这些属性变量值的数量级相同,且无量纲,这样获得的标准化的回归系数可以解决数据中各变量之间的可比性。另外,信用评级A、B、C设为高信誉,赋值为1;信用评级D、E、F为低信誉,赋值为0。房屋所有权情况,租房赋值为0,抵押赋值为1,已有赋值为2;FICO评分区间取其平均数,如FICO值为“679~713”,则取平均值696;借款用途共分为7种,先用0~6这7个数值代表各借款用途。
对上述Lending Club实验数据,由于原始数据不免存在或多或少的多重共线性,故先对原始数据通过Lasso回归[18]、Mallows Cp统计量方法[19],能够把无关的自变量进行剔除。最后,选取借款用途、资金需求、资助金额、借标人数等变量。利用上述变量,构建含有哑变量的回归模型(1),评估模型中各哑变量对因变量的重要性影响程度。其中选用资金需求、资助金额、借标人数等属性作为模型中的X,哑变量借款用途用Di表示(i取值:0为其他债务, 1为债务巩固, 2为汽车债务, 3为信用卡, 4为小额商业, 5为家庭改善, 6为大宗购买),以借款成功率为因变量Y。其中,其他债务作为基础哑变量,其他借款用途则作为对比类型。然后,利用上述各变量构建含有哑变量的回归模型(1),评估模型中各哑变量对因变量的重要性影响程度。通过t值显著性检验,剔除显著性不强的部分,可以得到债务巩固、汽车债务、信用卡债务、小额商业、家庭改善、大宗购买、其他债务等7种借款用途的最终的含哑变量的回归方程,如下所示。
基础类型:
E(Yi|Xi, D0=0)=0.4296-0.5233x1+0.6036x2+0.0996x3
债务巩固:
E(Yi|Xi, D1=1)=0.4296-0.5233x1+0.6036x2+0.0996x3+0.0654D1
汽车债务:
E(Yi|Xi, D2=1)=0.4296-(0.5233-0.4044D2)x1+(0.6036+0.3224D2)x2+0.0996x3+0.0587D2
信用卡:
E(Yi|Xi, D3=1)=0.4296-0.5233x1+0.6036x2+0.0996x3+0.0881D3
小额商业:
E(Yi|Xi, D4=1)=0.4296-0.5233x1+(0.6036-0.1689D4)x2+0.0996x3+0.0964D4
家庭改善:
E(Yi|Xi, D5=1)=0.4296-0.5233x1+0.6036x2+0.0996x3+0.0499D5
大宗购买:
E(Yi|Xi, D6=1)=0.4296-(0.5233-0.6546D6)x1+(0.6036+0.4906D6)x2+0.0996x3+0.1229D6
在分析完哑变量回归方程得到各哑变量回归系数后,利用本文提出的不同哑变量在回归方程中的重要性程度指数的分析方法公式(2),得到各哑变量的相对重要性程度指数R2Dj值,如表 1所示。
从表 1可以看出大宗购买、汽车债务的相对重要程度指数R2D6、R2D2值分别为0.4453、0.4250,说明其在这两个哑变量在回归方程中的影响力分别为44.53%和42.50%,即大宗购买和汽车债务这两种借款用途在其他条件不变情况下对借款成功率的影响程度最大,最容易借到款;而如果仅用哑变量前的回归系数来看,汽车债务的系数为0.0587,重要性程度远远低于大宗购买的系数0.1229,可知,直接用回归系数来判断是不够准确的。小额商业、债务巩固、家庭改善的相对重要程度指数值比较接近,说明在其他条件相同情况下,这些哑变量对借款成功率的影响力相差不大,且相对其他哑变量来说处于中等,而它们的回归系数都比较小,不能很容易看出它们的具体差别。这些哑变量的重要程度指数的结果说明,其他债务、信用卡债务对回归方程的影响力分别为0和17.35%,即这些哑变量对借款成功率的影响力较低,用于这些借款用途的人不容易借到款。可能是投资人对其他债务、信用卡债务等这些借款用途不是很明确的借款人不放心。投资人往往对用于大宗购买、汽车债务、小额商业这几种借款用途的借款力度相对支持要大些,这显示出投资人的出借意愿。信用卡债务重要程度指数与大宗购买重要性指数相差较大;而若仅用哑变量前的系数来看,信用卡债务系数与大宗购买系数相差较小,所以本文提供的重要程度指数方法更能够明显看出两者的具体区别。从现在反映的结果来看,通过本文提出的重要程度指数分析方法也可以得到各哑变量对因变量影响的重要性程度。因此,本文方法不失为一种比直接使用回归系数来判定哑变量相对重要性更好、更准确的方法。
针对Prosper平台2005年11月— 2012年2月的49992笔有效借贷数据(Loans数据)进行研究分析,每笔借贷样本的属性主要包括借款利率、贷款利率、从起始日算起的月数、借款金额、债务与收入比率、借款月数、信用等级、贷款状态等。直观上看, 信用等级是Prosper平台是对不同信用级别的借款人设置借款利率的参考标准,所以信用等级对借款利率有一定的影响。本文将以此平台数据为基础,通过其近年来的数据分析研究借款人的信用等级对其借款利率的影响。因此,本文选取因变量借款利率(Borrower Rate)Y;自变量属性借款金额(Amount Borrowed)X1、债务与收入比率(Debt ToIncome Ratio)X2、借款月数(Term)X3作为定量变量。首先为了解决量纲问题,把数据标准化、归一化。自变量属性W(信用等级(CreditGrade)),为定性变量,设置成哑变量Di(i取值为:0表示未评级NC;1表示信用为HR等级,风险极高; 2表示信用为E等级;3表示信用为D等级;4表示信用为C等级;5表示信用为B等级;6表示信用为A等级;7表示信用为最高AA等级),这样的分类有助于迅速分析出各哑变量对借款人的借款利率的不同影响程度。其中,未评级NC作为基础哑变量, 其他信用等级作为对比类型。利用上述各变量构建含有哑变量的回归模型(1),评估模型中各哑变量对因变量的重要性影响程度。
于是本文通过t值显著性检验,剔除显著性不强的部分,最终得到含哑变量的回归方程,如下所示。
基础类型NC:
E(Yi|Xi, D0=0)=0.8459+0.0790x1+0.0068x2+0.1714x3
信用等级HR:
E(Yi|Xi, D1=1)=0.8459+0.0790x1+0.0068x2+0.1714x3+0.2721D1
信用等级E:
E(Yi|Xi, D2=1)=0.8459+0.0790x1+0.0068x2+0.1714x3+0.2691D2
信用等级D:
E(Yi|Xi, D3=1)=0.8459+0.0790x1+0.0068x2+0.1714x3+0.0296D3
信用等级C:
E(Yi|Xi, D4=1)=0.8459+0.0790x1+0.0068x2+0.1714x3-0.2130D4
信用等级B:
E(Yi|Xi, D5=1)=0.8459+0.0790x1+0.0068x2+0.1714x3-0.3767D5
信用等级A:
E(Yi|Xi, D6=1)=0.8459+0.0790x1+0.0068x2+0.1714x3-0.5595D6
信用等级AA:
E(Yi|Xi, D7=1)=0.8459+0.0790x1+0.0068x2+0.1714x3-0.6727D7
在分析完哑变量回归方程得到各哑变量回归系数后,通过本文提出的哑变量重要程度指数分析方法式(2),得到各哑变量的相对重要性程度指数R2Dj值,如表 2所示。
从表 2中可以看出信用等级为AA、A的相对重要程度指数R2D7、R2D6值分别为0.8032、0.6673,说明信用等级为AA、A在其他条件不变情况下,对含哑变量的回归方程的影响力高达80.32%、66.73%,也就是说信用等级为AA、A的对因变量差异解释的比例是最大的,即该哑变量的重要性程度最大, 说明投资人对该类信用等级的借款人比较信任;而如果直接使用回归系数得出的结果正好与事实相反,等级AA、A的影响力都为负向影响力,如果这样解释就不免显得有些不符合常理。同理,信用等级为E、HR的相对重要程度指数R2D2、R2D1值为0.6473、0.5822,对回归方程的影响力也相对较大,投资人对该类信用等级的借款人抱有敌视,可能是由于该类的借款人大多数是刚评信用等级的新客户,或者是信用等级确实很低;而直接使用回归系数,会得出相反的结果是等级HR的系数要稍大于等级E的系数。而信用等级为B、C、D的重要性程度指数分别仅为0.1116、0.1975、0.1419,这些哑变量的相对重要性程度指数值都偏小,说明这些哑变量在回归方程中的影响力很小。
3 结语含哑变量的回归模型作为一种特殊的回归分析模型,而传统的判定各哑变量对因变量Y影响的重要性程度方法是直接通过哑变量的回归参数,当部分哑变量的回归系数差别较小, 或者回归系数的值较小时,这种用人眼观察的系数对比法则不易得出明确的结论,甚至有时候使用回归得到的系数不能直接作为重要性程度的标准。为了用客观方法代替这种人眼观察对比法,本文提出新的不同哑变量在回归方程中的相对重要性指数的方法,将用它来度量各哑变量对回归方程的重要性影响程度,得到了比较好的效果。与传统回归方程仅提供哑变量前的系数却未展现其重要程度相比,本方法展现了不同哑变量的不同重要性,为定量分析回归方程中定性自变量对因变量的影响程度提供了可靠的工具。
[1] | 张晓峒. 计量经济分析[M]. 北京: 经济科学出版社, 2000: 242-271. (ZHANG X T. Econometric Analysis[M]. Beijing: Economic Science Press, 2000: 242-271.) |
[2] | 章晓英. 虚拟变量在线性回归模型中的应用[J]. 重庆工业管理学院学报, 1998(2): 84-88. (ZHANG X Y. Application of dummy variable in linear regression model[J]. Journal of Chongqing Institute of Technology Management, 1998(2): 84-88.) |
[3] | 吴小英, 鞠颖. 基于最小二乘法的网络借贷模型[J]. 厦门大学学报(自然科学版), 2012, 51(6): 980-984. (WU X Y, JU Y. Network borrowing model based on least squares method[J]. Journal of Xiamen University (Natural Science), 2012, 51(6): 980-984.) |
[4] | LEISTRITZ F L. Use of dummy variables in regression analysis[J]. Agricultural Economic Miscellaneous Report Technical, Agricultural Experiment Station, North Dakota State University, 1973, 4(43): 434-442. |
[5] | HARDY M A. Regression with Dummy Variables[M]. Thousand Oaks, CA: SAGE Publications, 1993: 96. |
[6] | GROTENHUIS M T, THIJS P. Dummy variables and their interactions in regression analysis:examples from research on body mass index[EB/OL].[2016-11-20]. http://www.ru.nl/publish/pages/780171/table1-4.pdf. |
[7] | USMAN A U, ABDULKADIR H S, TUKUR K. Application of dummy variables in multiple regression analysis[J]. Recent Scientific Research, 2015, 7(11): 7440-7442. |
[8] | GVRTLER M, HIBBELN M, WINKELVOS C. The impact of the financial crisis and natural catastrophes on CAT bonds[J]. Journal of Risk and Insurance, 2016, 83(3): 579-612. DOI:10.1111/jori.v83.3 |
[9] | SKRIVANEK S. The use of dummy variables in regression analysis[EB/OL].[2016-11-20]. https://www.moresteam.com/WhitePapers/download/dummy-variables.pdf. |
[10] | SUITS D B. Use of dummy variables in regression equations[J]. Journal of the American Statistical Association, 1957, 52(280): 548-551. DOI:10.1080/01621459.1957.10501412 |
[11] | HELLMANN T F, SCHURE P, VO D. Angels and venture capitalists:substitutes or complements?[J]. Social Science Electronic Publishing, 2015, 11(7): 1301-1307. |
[12] | SEARLE S R, UDELL J R. The use of regression on dummy variables in management research[J]. Management Science, 1970, 16(6): 397-409. DOI:10.1287/mnsc.16.6.B397 |
[13] | 杨希, 王苏生. 政府背景风险投资对创业企业经营绩效的影响[J]. 大连海事大学学报(社会科学版), 2016, 15(5): 52-58. (YANG X, WANG S S. Influence of government background venture capital on the performance of startup enterprises[J]. Journal of Dalian Maritime University (Social Science Edition), 2016, 15(5): 52-58.) |
[14] | 徐卫华, 何宜庆, 钟慧安. 金融深化、科技创新与产业结构优化升级——基于我国30个省市1997~2014年面板数据分析[J]. 金融与经济, 2017, 15(3): 54-64. (XU W H, HE Y Q, ZHONG H A. Financial deepening, technological innovation and industrial structure optimization and upgrading-based on panel data analysis of 30 provinces in China from 1997 to 2014[J]. Finance ans Economy, 2017, 15(3): 54-64.) |
[15] | POLISSAR L, DIEHR P. Regression analysis in health services research:the use of dummy variables[J]. Medical Care, 1982, 20(9): 959-966. DOI:10.1097/00005650-198209000-00008 |
[16] | 庞浩. 计量经济学[M]. 北京: 科学出版社, 2015: 190-199. (PANG H. Econometric Analysis[M]. Beijing: Science Press, 2015: 190-199.) |
[17] | 高铁梅. 计量经济分析方法与建模[M]. 北京: 清华大学出版社, 2009: 76-79. (GAO T M. Econometric Analysis Method and Modeling[M]. Beijing: Tsinghua University Press, 2009: 76-79.) |
[18] | TIBSHIRANI R. Regression shrinkage and selection via the Lasso:a retrospective[J]. Journal of the Royal Statistical Society, 2011, 73(3): 273-282. DOI:10.1111/rssb.2011.73.issue-3 |
[19] | MALLOWS C L. Some comments on CP[J]. Technometrics, 2000, 42(1): 87-94. |