2. 北京大学 光华管理学院, 北京 100871;
3. 南开大学 计算机与控制工程学院, 天津 300350
2. Guanghua School of Management, Peking University, Beijing 100871, China;
3. College of Computer and Control Engineering, Nankai University, Tianjin 300350, China
随着智能电网的应用普及[1-2]和大数据技术快速发展[3-5],海量用户用电数据被记录和存储,带动了用户用电行为分析等新方向的实践和理论研究[6-7]。
本文关注智能电网中居民用户用电行为细分,采用矩阵分解和聚类智能信息处理手段,将具有相似用电行为的用户聚簇,自动化地挖掘用户群体用电的行为模式,帮助电网企业更精准地理解用户需求、快速把握市场需求波动趋势,从而有针对性地提升服务品质、制定相应的市场营销策略,在满足市场需求的情况下达到能源的高效使用。
传统的智能电网用户细分模型主要为启发式的聚类算法[8-9]。根据经验,预先定义两个用户的行为相似性度量方法,然后采用聚类方法基于该相似度度量对用户聚类。相似度计算作用在用户的用电序列向量上,常用的相似度度量方法有欧氏距离、余弦相似度或者皮尔逊系数。这样的理论框架可以聚类用户,但对于电网企业而言,由于供电运输是与地理相关的,对地理相近(比如同市、乡镇、社区等)且用电需求相似的用户群提供特定供电服务更为可行。这对传统聚类方法提出了新的挑战。
为了解决上述问题,本文提出基于地理信息正则化矩阵分解[10-13]的居民用户用电行为分析方法,将地理位置接近且具有相似用电量的住宅用户聚集。算法首先基于地理信息正则化矩阵分解算法,将居民根据其时间序列用电量的情况投影到潜在特征空间,并约束地理位置相近的用户在潜在特征空间也相近,然后采用聚类算法在潜在特征空间上对用户聚类细分,使得用户聚类结果不仅保证用户的地理位置接近且具有相似用电行为。为了求解基于地理信息正则化矩阵分解的优化目标,本文借助非负矩阵分解(Nonnegtive Matrix Factorization, NMF)的优化思路,设计了一种基于非负梯度更新的求解算法。
在中新天津生态城智能电网中真实居民用户用电数据上的实验结果表明,相比于传统的基准算法,本文算法能够取得更好的用户细分性能。
本文的主要工作是:1) 首次提出将地理位置信息引入到智能电网用户细分研究中,为智能电网更好分析用户行为提供更贴近实际的思路;2) 提出基于地理信息正则化矩阵分解的居民用户用电行为分析方法,使得地理位置相近且具有相似用电量的用户聚集在一起;3) 真实数据上的实验结果表明,相比基准的向量空间模型(Vector Space Model, VSM)和非负矩阵分解(NMF)算法,本文算法具有更好性能。
1 相关工作与本文相关的研究领域主要有智能电网技术数据分析研究中的用户细分方法。
智能电网上的节点本质上是输电节点和用户,其核心内容之一是采集用户的用电信息。因此,大量研究者开展用户用电信息采集技术的研究,期望通过研究更加准确和有效的采集技术,实现用电信息的采集、分享和监控,进一步推动信息的管理和分析,甚至用电信息的预测[1]。一些研究者在分析国内电力用户用电采集信息系统的基础上,对采集信息系统在电网中的应用进行了进一步探讨[2]。牛春霞[8]对用户用电信息采集系统从基本概念、系统组成、系统数据模型、主要功能、测试方法等方面进行了详细的讨论。除了用电信息采集技术,研究者也开始借助智能信息处理技术,对大规模收集的用户用电数据进行挖掘和分析,期望从数据中发现运营规则以及发展趋势[9]。
中新天津生态城智能电网是我国首个进入实质性建设的智能电网综合示范工程[6-7],并于2011年9月竣工。国网天津市电力公司依托中新天津生态城智能电网,开展智能配用电园区技术集成研究,其核心目标是基于地理位置信息,开展住宅用电信息的采集、分析及可视化。
用户细分研究是客户关系管理最重要的一环,广泛存在于智能电网、民航售票和信用卡用户分析等领域。传统的用户细分技术更多采用RFM模型,即通过对用户的最近消费(Recent)、消费频率(Frequency)与消费额(Monetary)进行用户细分[10-13]。由于RFM模型建立在原始数据特征空间上,并没有考虑原始数据特征间的相关性,这对用户细分性能有一定的影响,尤其当数据维度非常庞大时。为此,有研究者开始着手先将原始数据作降维处理,以去除数据特征间的相关性,然后再作用户细分。受上述想法的启发,研究者将非负矩阵分解应用于用户细分,通过将原始数据样本-特征的非负矩阵分解成两个非负矩阵(潜在特征表示矩阵和系数矩阵)的乘积,达到将用户映射到潜在特征空间的目的。除了用户细分,NMF还被用于文本聚类和图像复原[14-18], 如:Cai等[12]在非负矩阵分解中引入图正则化约束,提升了文本聚类性能;Li等[13]提出一种关系正则化矩阵分解,并将其应用于文本分类问题上。
虽然NMF能够取得较好的用户细分性能,但NMF没有考虑用户地理位置的信息,不能完成分析一个特定区域的总体用电行为和趋势的任务。为此,本文提出基于地理信息正则化矩阵分解的智能用户细分算法,其主要思路是在传统NMF基础上引入用户地理信息,使得矩阵分解时保证地理位置相近的用户在潜在特征空间也相近,为后续使用聚类算法在潜在特征空间对用户聚类提供了地理相似的描述。
2 基于正则化矩阵分解的用户用电细分模型为了更好地对用户细分,本文在传统非负矩阵分解基础之上融入用户地理位置信息,提出基于地理信息正则化矩阵分解的居民用户用电行为分析,其核心思想是通过对用户用电信息矩阵分解,挖掘潜在特征空间,在此基础之上采用k-means聚类算法对用户聚类。
2.1 符号定义本文假设每个用户有一个配置文件。配置文件包括用户的历史用电记录和地理位置信息,其中用户用电信息是通过用户电表采集每天不同时刻的用电量。
定义集合U={U1, U2, …, UT}表示T个用户的用电记录集合,其中Ui代表第i个用户的用电集合。uitd表示用户在第d天的t时刻用电量,设总天数为D天,每天采集T个时间点,则每个用户有M=D*T个特征。
用户地理信息侧重描述用户的位置信息。采用符号gi={gi1, gi2, …, gin}描述第i个用户的位置信息,其中gi1, gi2, …, gin是基于城市管理规则(比如省、市、县、乡、镇、街)的全序集合,而gik表示第i个用户的第k部分位置信息。基于上述定义,本文提出基于位置信息的用户间相似性计算方法。假设eij表示用户i和用户j的相似性,其定义为:
$ {e^{ij}} = \sum\limits_{k = 1}^n {{\lambda _k}} \mathop \prod \limits_{m = 1}^k \delta \left( {g_i^m, g_j^m} \right)/\sum\limits_{k = 1}^n {{\lambda _k}} $ | (1) |
其中:δ(·, ·)是逻辑函数,当且仅当gim=gjm取值为1,否则取值为0。为了突出不同位置信息的重要性,引入权重集合λ={λ1, λ2, …, λn},其具体取值是通过数据交叉验证得到。
2.2 地理信息正则化矩阵分解非负矩阵分解旨在将一个非负矩阵分解成两个低维非负矩阵,这两个矩阵可分别理解为特征表示矩阵和系数矩阵,即:
$ \mathit{\boldsymbol{U = VS}} $ | (2) |
其中:矩阵U∈R+T×Μ表示原始输入;V∈R+T×Κ为特征矩阵;S∈R+Κ×Μ为系数矩阵;T为用户数;M为用户的原始特征数;k为潜在特征的维度。
在智能电网用户细分研究中,由于非负矩阵分解(NMF)无法保持用户地理位置的相似性,为此本文提出一种改进的NMF,首先将式(2) 改写为:
${\mathit{\boldsymbol{U}}_i} = {\mathit{\boldsymbol{V}}_i}\mathit{\boldsymbol{S}};i = 1, 2, \cdots, T$ | (3) |
其中:Ui∈R+T×M和Vi∈R+T×Κ分别表示用户i的原始输入和特征矩阵;S∈R+Κ×Μ是共享的系数矩阵;T表示用户数量。
为了能够实现上述矩阵分解,本文首先引入描述分解逼近的损失函数,即:
$l = \sum\limits_{i = 1}^N {\left\| {{\mathit{\boldsymbol{U}}_i} - {\mathit{\boldsymbol{V}}_i}\mathit{\boldsymbol{S}}} \right\|} $ | (4) |
其中‖·‖代表矩阵2范式。为了避免分解过度拟合,分别对V和S增加两个正则化约束,即:
$ l = \frac{1}{2}\sum\limits_{i = 1}^N {{{\left\| {{\mathit{\boldsymbol{U}}_i}-{\mathit{\boldsymbol{V}}_i}{\mathit{\boldsymbol{S}}^{\rm{T}}}} \right\|}^2}} + \frac{\alpha }{2}\sum\limits_{i = 1}^N {{{\left\| {{\mathit{\boldsymbol{V}}_i}} \right\|}^2}} + \frac{\beta }{2}{\left\| \mathit{\boldsymbol{S}} \right\|^2} $ | (5) |
其中α和β为非负参数,用于平衡逼近目标和正则化约束。
直观上,地理位置相似的用户具有相似的用电量,为此需要将用户之间的位置相似信息引入到约束目标中,更精确地说,相似的用户在新的特征空间具有相似的系数。综合上述因素,本文得到基于地理信息正则化矩阵分解的优化目标:
$ \begin{array}{l} \min l = \frac{1}{2}\sum\limits_{i = 1}^N {{{\left\| {{\mathit{\boldsymbol{U}}_i}-{\mathit{\boldsymbol{V}}_i}\mathit{\boldsymbol{S}}} \right\|}^2}} + \frac{\alpha }{2}\sum\limits_{i = 1}^N {{{\left\| {{\mathit{\boldsymbol{V}}_i}} \right\|}^2}} + \\ \;\;\;\;\;\;\;\;\;\frac{\beta }{2}{\left\| \mathit{\boldsymbol{S}} \right\|^2} + \frac{\gamma }{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{e^{ij}}{{\left\| {{\mathit{\boldsymbol{V}}_i}-{\mathit{\boldsymbol{V}}_j}} \right\|}^2}} } \end{array} $ | (6) |
其中γ是先验参数,用于权衡地理信息对非负矩阵分解约束的强度,该值越大,说明地理位置的靠近对于用户潜在特征表示越重要。
由于损失函数l是关于Vi和S的凸函数,为此本文采用梯度下降算法进行迭代求解,其中Vi和S的更新规则如下:
$ {\mathit{\boldsymbol{V}}_i} \leftarrow {\mathit{\boldsymbol{V}}_i}\frac{{{\mathit{\boldsymbol{U}}_i}{\mathit{\boldsymbol{S}}^{\rm{T}}} + \gamma \sum\limits_{j = 1}^N {{e^{ij}}{\mathit{\boldsymbol{V}}_j}} }}{{{\mathit{\boldsymbol{V}}_i}\mathit{\boldsymbol{S}}{\mathit{\boldsymbol{S}}^{\rm{T}}} + \alpha {\mathit{\boldsymbol{V}}_i} + \gamma \sum\limits_{j = 1}^N {{e^{ij}}{\mathit{\boldsymbol{V}}_i}} }} $ | (7) |
$\mathit{\boldsymbol{S}} \leftarrow \mathit{\boldsymbol{S}}\frac{{\sum\limits_{i = 1}^N {\mathit{\boldsymbol{V}}_i^{\rm{T}}{\mathit{\boldsymbol{U}}_i}} }}{{\sum\limits_{i = 1}^N {\mathit{\boldsymbol{V}}_i^{\rm{T}}{\mathit{\boldsymbol{V}}_i}\mathit{\boldsymbol{S}} + \beta \mathit{\boldsymbol{S}}} }}$ | (8) |
通过不断反复迭代,Vi和S最终收敛到全局最优解。算法流程如算法1。
算法1 基于迭代更新的地理信息正则化矩阵分解。
输入 用户住宅用电量矩阵U1, U2, …, UT;用户地理相似性矩阵E(计算方法见式(1));数据潜在特征维度K;平衡因子α、β、γ。
输出 特征矩阵V1, V2, …, VT;系数矩阵S。
随机初始化V1, V2, …, VT, S
Repeat
FOR i=1:T
根据式(7) 更新Vi
ENDFOR
根据式(8) 更新S
Until Convergence
返回V1, V2, …, VT, S
2.3 用户细分算法在2.2节,本文通过地理信息正则化矩阵分解将用户映射到潜在特征空间V上。本节在此基础之上,在潜在特征空间V上采用k-means算法对用户聚类,算法流程见算法2。算法首先将T个用户随机划分成k个簇c1, c2, …, ck,其次迭代计算聚类中心,其中样本到聚类中心的相似性采用矩阵迹计算。
$sim\left( {\mathit{\boldsymbol{A}}, \mathit{\boldsymbol{B}}} \right) = {\rm{tr}}\left( {\mathit{\boldsymbol{AB}}} \right)/\left( {\left\| \mathit{\boldsymbol{A}} \right\|\left\| \mathit{\boldsymbol{B}} \right\|} \right)$ | (9) |
其中:A和B分别代表两个矩阵;tr(·)为矩阵的迹。
与此同时,每个用户不断调整划分到最近的聚类中心,其计算方法是:
$Center\left( c \right) = \frac{1}{{\left| c \right|}}\sum\limits_{{u_i} \in c} {{\mathit{\boldsymbol{V}}_i}} $ | (10) |
其中|c|是聚类c中的样本数目。算法反复迭代,直至算法收敛。
算法2 基于k-means聚类的用户细分。
输入 用户特征矩阵V={V1, V2, …, VT};聚类数目k;
输出 输出聚类结果c1, c2, …, ck。
随机将N个用户划分到k个簇
Repeat
FOR j=1:T
根据式(9) 计算用户特征矩阵Vj到聚类中心距离
Set
END FOR
FOR i=1:k
根据式(10) 计算新的聚类中心
END FOR
Until Convergence
返回聚类结果c1, c2, …, ck
3 实验结果及分析为了验证算法的有效性,本文将提出的算法应用在中新天津生态城的真实用户用电数据,并进一步与基准的向量空间模型(VSM)和非负矩阵分解(NMF)算法进行性能比较。为了与基准方法区分,将本文提出的基于地理信息正则化矩阵分解的用户用电分析算法称为GMF(Geographic regularized Matrix Factorization)。
3.1 实验数据集本文所采用的数据集是中新天津生态城的居民用户用电数据。数据集包含来自9个社区的4 826个用户。针对每个用户,本文抽取其2015年8月26日至2015年9月30日内的用电数据,其中每天抽取96个样本点。对于数据中的缺失值,本文采用平均值代替。
3.2 基准算法本文在用户的特征表示方面采用两种主流表示方法作为基准算法,分别为:
1) 向量空间模型(VSM):最常用的特征表示模型,即直接使用Ui作为用户特征表示。
2) 非负矩阵分解(NMF):传统的未考虑地理约束的非负矩阵分解方法,将原始输入矩阵分解成两个非负矩阵的乘积,选择其中的特征表示矩阵作为用户的特征表示。
在特征表示后,使用k-means对用户聚类,得到用户群体。
3.3 评价指标为了评价聚类结果,本文提出一种考量类内距离紧密、类间距离宽松的聚类指标H距离值:
$ H = \frac{{\sum\limits_{p = 1}^k {\frac{2}{{\left| {{\mathit{\boldsymbol{c}}_p}} \right|\left( {\left| {{\mathit{\boldsymbol{c}}_p}} \right|-1} \right)}}} \sum\limits_{{\mathit{\boldsymbol{V}}_i}, {\mathit{\boldsymbol{V}}_j} \in {\mathit{\boldsymbol{c}}_p}} {sim\left( {{\mathit{\boldsymbol{V}}_i}, {\mathit{\boldsymbol{V}}_j}} \right)} }}{{\sum\limits_{p = 1}^k {\frac{1}{{2\left| {{\mathit{\boldsymbol{c}}_p}} \right|\left( {N-\left| {{\mathit{\boldsymbol{c}}_p}} \right|} \right)}}\sum\limits_{{\mathit{\boldsymbol{V}}_i} \in {\mathit{\boldsymbol{c}}_p}, {\mathit{\boldsymbol{V}}_j} \notin {\mathit{\boldsymbol{c}}_p}} {sim\left( {{\mathit{\boldsymbol{V}}_i}, {\mathit{\boldsymbol{V}}_j}} \right)} } }} $ | (11) |
其中:k为聚类数目;|cp|是聚类cp的样本数目。式(11) 指标的直观物理含义是聚类相同的样本对数目与不同聚类的样本数目比值,其取值越大表示聚类结果越相似。
3.4 实验结果与分析将GMF分解后的潜在特征空间维度分别设置为10、20、30,将聚类数目分别设置为5、6、7、8。表 1给出了三种算法聚类性能指标H距离值的结果。
根据表 1可以得到以下结论:
1) 相比VSM,基于矩阵分解的NMF和GMF能取得更好的H距离值,这说明采用矩阵分解能得到原始数据更好的特征表达。
2) 相比NMF,GMF能取得更好的H距离值,这说明GMF能发现更好的潜在特征。
3) 虽然NMF和GMF在潜在特征维度为30时能取得最好的H距离值,但这并不意味着高维度不能够取得更好性能,只能说明维度等于30适合原始数据集。
4) 当聚类数目为不同值时,GMF均能取得更好的H距离值;在聚类数据为5、6、8时,潜在特征维度为30时性能均最好。
图 1描述了不同聚类中用户不同时刻的用电行为,纵坐标为H距离值,横坐标为时间点。例如,聚类c3的用电高峰处于早上6:00到晚上6:00,而聚类c4的用电高峰却是晚上8:00,c5高峰电量要明显低于其他聚类,c6的峰值用电量最大。从中可以看出,同一聚簇中用户有类似用电行为,不同聚簇具有不同用电行为,比如用电高峰和基本用电量。
图 2显示每个聚簇内每天平均用电量情况,从中可以看出不同聚类每天平均电量是不同的。例如,聚类6中前几天平均每天用电量呈明显下降趋势,而其他聚类却没有明显变化。
上述实验结果及分析表明,相比基准算法,本文算法能够取得更好的特征抽取性能,从而更好地支持智能电网中用户的群体分析和画像,为进一步的决策和服务提供数据支持。
4 结语为了能够更好地分析特定区域的用户用电行为,本文提出并实现了一种基于地理信息正则化矩阵分解的居民用户用电行为分析,使得地理位置相近且用电行为相似的用户聚集在一起。地理信息正则化矩阵分解的优化目标由传统非负矩阵分解的优化目标和地理信息正则化约束组成,其中地理信息正则化约束强调地理位置接近的用户在潜在特征空间也相近。为了求解上述优化目标,本文设计了基于迭代更新的求解算法。本文通过地理信息正则化矩阵分解方法将用户映射到潜在特征空间进行表示;进一步地,本文采用k-means聚类算法对用户细分。在中新天津生态城智能电网中真实居民用户用电数据上的实验结果表明,相比传统VSM和NMF算法,本文的算法能够取得更好的用户细分性能。
[1] | 余贻鑫, 奕文鹏. 智能电网[J]. 电网与清洁能源, 2009, 25(1): 1-7. (YU Y X, YI W P. Smart grids[J]. Power System and Clean Energy, 2009, 25(1): 1-7.) |
[2] | ZHAO J H, WANG L Y. Information structure of smart distribution network[J]. Power System Technology, 2009, 33(15): 26-29. |
[3] | STAFF S. Dealing with data. Challenges and opportunities. Introduction[J]. Science, 2011, 331(6018): 692-693. DOI:10.1126/science.331.6018.692 |
[4] | 李国杰, 程学旗. 大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J]. 中国科学院院刊, 2012, 27(6): 647-657. (LI G J, CHENG X Q. Big data research:major strategic areas for future science and technology and economic and social development-research status and scientific thinking of big data[J]. Journal of Chinese Academy of Sciences, 2012, 27(6): 647-657.) |
[5] | 王元卓, 靳小龙, 程学旗. 网络大数据:现状与展望[J]. 计算机学报, 2013, 36(6): 1125-1138. (WANG Y Z, JIN X L, CHENG X Q. Web big data:status and prospect[J]. Chinese Journal of Computers, 2013, 36(6): 1125-1138.) |
[6] | 中国电机工程学会信息化专业委员会. 中国电力大数据发展白皮书(2013)[M]. 北京: 中国电力出版社, 2013: 1-12. (Information Committee of Chinese Society for Electrical Engineering. China Electric Power Big Data Development White Paper[M]. Beijing: China Electric Power Press, 2013: 1-12.) |
[7] | 王扬, 于海涛, 张旭, 等. 电力大数据基础平台建设与应用实践[M]. 北京: 中国电力出版社, 2016: 32-36. (WANG Y, YU H T, ZHANG X, et al. Electric Big Data Fundamental Platform Construction and Application[M]. Beijing: China Electric Power Press, 2016: 32-36.) |
[8] | 牛春霞.电力用户用电信息采集[M].中国电力出版社, 2012:146-172. (NIU C X. Power User Information Collection[M]. Beijing:China Electric Power Press, 2012:146-172.) |
[9] | LAMBERT E, FREMONT J, BOUQUET C. Method and applications of IEC common information model standard for distribution operations:a path towards smart grids development[C]//IET CIRED Seminar 2008:Proceedings of the 2008 Smart Grids for Distribution. Piscataway, NJ:IEEE, 2008:1-4. http://www.researchgate.net/publication/4360519_Method_and_applications_of_IEC_common_information_model_standard_for_distribution_operations_A_path_towards_smart_grids_development |
[10] | LEE D D, SEUNG H S. Algorithms for non-negative matrix factorization[C]//NIPS 2000:Advances in Neural Information Processing Systems. Cambridge, MA:MIT Press, 2001:556-562, |
[11] | LEE D D, SEUNG H S. Learning the parts of objects by non-negative matrix factorization[J]. Nature, 1999, 401(6755): 788-791. DOI:10.1038/44565 |
[12] | CAI D, HE X, HAN J, et al. Graph regularized nonnegative matrix factorization for data representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1548-1560. DOI:10.1109/TPAMI.2010.231 |
[13] | LI W-J, YEUNG D-Y. Relation regularized matrix factorization[C]//IJCAI'09:Proceedings of the 21st International Jont Conference on Artifical Intelligence. San Francisco, CA:Morgan Kaufmann Publishers, 2009:1126-1131. https://www.researchgate.net/publication/220813450_Relation_Regularized_Matrix_Factorization |
[14] | LUO P, TIAN Y, WANG X, et al. Switchable deep network for pedestrian detection[C]//CVPR 2014:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC:IEEE Computer Society, 2014:899-906. https://www.researchgate.net/publication/286176572_Switchable_Deep_Network_for_Pedestrian_Detection |
[15] | JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231. DOI:10.1109/TPAMI.2012.59 |
[16] | SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[C]//NIPS 2013:Advances in Neural Information Processing Systems. Cambridge, MA:MIT Press, 2014:568-576. http://www.researchgate.net/publication/262974436_Two-Stream_Convolutional_Networks_for_Action_Recognition_in_Videos |
[17] | BRUNA J, MALLAT S. Invariant scattering convolution networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013: 35. |
[18] | VITALI M, PERNICI B, O'REILLY U-M. Learning a goal-oriented model for energy efficient adaptive applications in data centers[J]. Information Sciences, 2015, 319(C): 152-170. |