基于Hadoop的IPTV隐式评分模型

引用本文

顾军华, 官磊, 张建, 高星, 张素琪. 基于Hadoop的IPTV隐式评分模型[J]. 计算机应用, 2017, 37(11): 3188-3193.DOI: 10.11772/j.issn.1001-9081.2017.11.3188. 复制到剪切板

GU Junhua, GUAN Lei, ZHANG Jian, GAO Xing, ZHANG Suqi. IPTV implicit scoring model based on Hadoop[J]. Journal of Computer Applications, 2017, 37(11): 3188-3193. DOI: 10.11772/j.issn.1001-9081.2017.11.3188. 复制到剪切板

基金项目

天津市自然科学基金资助项目（15JCQNJC00600，14JCYBJC15900）

通信作者

顾军华, E-mail:jhgu@hebut.edu.cn

作者简介

顾军华(1966-), 男, 河北赵县人, 教授, 博士, CCF会员, 主要研究方向:数据挖掘、智能信息处理、信息采集与集成、智能计算与优化、软件工程;
官磊(1992-), 男, 河南信阳人, 硕士研究生, 主要研究方向:智能信息处理;
张建(1993-), 男, 河北涿州人, 硕士研究生, 主要研究方向:数据挖掘;
高星(1992-), 女, 河北赵县人, 硕士研究生, 主要研究方向:商务智能、软计算;
张素琪(1980-), 女, 河北隆尧人, 讲师, 博士, CCF会员, 主要研究方向:数据挖掘

文章历史

收稿日期：2017-05-16
修回日期：2017-07-05

Contents Abstract Full text Figures/Tables PDF

基于Hadoop的IPTV隐式评分模型

顾军华¹, 官磊¹, 张建¹, 高星¹, 张素琪²

1. 河北工业大学计算机科学与软件学院, 天津 300401;
2. 天津商业大学信息工程学院, 天津 300134

收稿日期：2017-05-16；修回日期：2017-07-05

基金项目：天津市自然科学基金资助项目（15JCQNJC00600，14JCYBJC15900）

作者简介：顾军华(1966-), 男, 河北赵县人, 教授, 博士, CCF会员, 主要研究方向:数据挖掘、智能信息处理、信息采集与集成、智能计算与优化、软件工程;
官磊(1992-), 男, 河南信阳人, 硕士研究生, 主要研究方向:智能信息处理;
张建(1993-), 男, 河北涿州人, 硕士研究生, 主要研究方向:数据挖掘;
高星(1992-), 女, 河北赵县人, 硕士研究生, 主要研究方向:商务智能、软计算;
张素琪(1980-), 女, 河北隆尧人, 讲师, 博士, CCF会员, 主要研究方向:数据挖掘

通信作者：顾军华, E-mail:jhgu@hebut.edu.cn

摘要: 根据网路协定电视（IPTV）用户收视行为数据中的隐式特性，提出一种新型的隐式评分模型。首先，介绍了IPTV用户收视行为数据的主要特点，提出一种新的用户收视比值、用户兴趣偏置因子以及视频类型影响因子相结合的多特征混合隐式评分模型；然后，提出基于收视时长和收视比值的收视行为筛选策略；最后，设计并实现了基于Hadoop的分布式模型架构。实验结果表明，所提模型有效提高了IPTV系统中推荐结果的质量，同时提升了时间效率，对于大规模数据有良好的可扩展性。

关键词: 隐式反馈分布式模型兴趣模型网路协定电视

IPTV implicit scoring model based on Hadoop

GU Junhua¹, GUAN Lei¹, ZHANG Jian¹, GAO Xing¹, ZHANG Suqi²

1. School of Computer Science and Software, Hebei University of Technology, Tianjin 300401, China;
2. School of Information Engineering, Tianjin University of Commerce, Tianjin 300134, China

Foundation Item: This work is partially supported by the Natural Science Foundation of Tianjin (15JCQNJC00600, 14JCYBJC15900)

Author introduction: GU Junhua, born in 1966, Ph. D., professor. His research interests include data mining, intelligent information processing, information acquisition and integration, intelligent computing and optimization, software engineering;
GUAN Lei, born in 1992, M. S. candidate. His research interests include intelligent information processing;
ZAHNG Jian, born in 1993, M. S. candidate. His research interests include data mining;
GAO Xing, born in 1992, M. S. candidate. Her research interests include business intelligence, soft computing;
ZHANG Suqi, born in 1980, Ph. D., lecturer. Her research interests include data mining

Abstract: According to the implicit characteristics of IPTV (Internet Protocol Television) user viewing behavior data, a novel implicit rating model was proposed. Firstly, the main features of IPTV user viewing behavior data were introduced, and a new mixed feature implicit scoring model was proposed, which combined with viewing ratio, user interest bias factor and video type influence factor. Secondly, the strategy of viewing behavior based on viewing time and viewing ratio was proposed. Finally, a distributed model architecture based on Hadoop was designed and implemented. The experimental results show that the proposed novel model effectively improves the quality of the recommended results in the IPTV system, improves the time efficiency, and has good scalability for large amounts of data.

Key words: implicit feedback distributed model interest model Internet Protocol Television (IPTV)

0 引言

随着互联网和广播电视网络的不断发展，具有互动点播功能的网络协定电视(Internet Protocol Television, IPTV)逐渐走进了人们的生活。IPTV将数字技术、计算机技术、互联网技术与广播电视技术有机地结合在一个平台中^[1]，向用户提供了数字广播电视、交互式娱乐平台、资讯平台以及电子商务等多种网络服务，并通过电视机、电脑等显示终端呈现给用户。随着海量节目的引入，用户面临的选择越来越多，为IPTV用户进行个性化推荐服务就显得尤为重要。

个性化推荐是依据用户的兴趣特征或历史行为，主动评估用户对于系统中物品的感兴趣程度，并给出用户最为合理的推荐^[2]，所以推荐结果的质量取决于建立的评分模型是否能够准确地反映用户的兴趣特征。

建立评分模型的主要方式有两种：显式与隐式。显式评分模型需要用户主动提供关于自己兴趣的信息如网络评分、调查问卷等，其优点是可以确保反馈的准确性，缺点是需要用户主动配合收集反馈信息，可能导致数据量不足、稀疏度高等问题。而隐式评分模型与之相反，通过数据挖掘等手段，分析用户的行为数据，间接得到用户的偏好信息，其优点是可以降低成本、大量获取用户偏好信息，缺点是信息的准确度降低、存在噪声等问题^[3]。

在IPTV实际应用中，受到电视平台的操作性和传统用户收视习惯等条件的影响，用户往往不愿意给出直接反馈的评分和喜好等信息，因此隐式评分更适用于基于IPTV的视频推荐系统。而隐式评分模型的优劣会直接影响推荐算法的推荐结果质量。

Claypool等^[4]首先提出将隐式反馈应用于推荐系统中，并将之应用于挖掘用户对网页的兴趣偏好。文献[5-6]将隐式反馈信息应用于电影推荐系统中以解决冷启动问题。Uluyagmur等^[7]验证了使用收视时长作为电影隐式评分的可行性。Gadanho等^[8]提出了基于收视时长的多种隐式评分策略。Oard等^[9]和Kelly等^[10]先后提出了隐式评分的数据来源：1) 用户行为类型，包括浏览、保存、评论等; 2) 用户的行为范围，包括只浏览部分内容或者整个对象等。文献[11-12]中提出了基于视频收视比值的隐式反馈评分模型，并利用矩阵分解法构建推荐系统。这成为了众多隐式反馈推荐系统算法研究的重要基础。在此基础上，文献[13]使用神经网络自动回归模型建立了基于收视比值的隐式反馈协同过滤推荐算法；文献[14]使用用户选择信息构建了偏好排序，印鉴等^[15]在偏好排序基础上，结合了MapReduce工具实现了大规模并行化的隐式反馈推荐系统；纪淑娟等^[16]利用播放、快进、快退等动作作为输入，将神经网络方法应用于自动生成隐式评分。

以往基于IPTV的隐式反馈推荐系统的应用研究中，多数只是简单地将收视行为作为正向输入，忽视了隐式评分的众多特征信息；而基于隐式反馈特征的挖掘研究中，也缺少针对IPTV视频收视行为的深入研究。因此本文从实际数据出发，分析和讨论IPTV收视行为隐式反馈的主要特征信息，并建立一种新的隐式评分模型。同时，海量IPTV用户收视行为数据决定了隐式评分模型的建立和应用必须借助大数据技术，因此本文提出了基于Hadoop的分布式多特征隐式评分模型。

1 IPTV用户收视行为数据

本次研究的数据集来源于某市IPTV用户数字机顶盒，数据是1300名用户从2016年12月— 2017年3月所产生的10737220条用户收视日志数据。本文从用户收视日志数据中提取能够显著反映用户偏好的信息，包括用户的行为类型、节目时长、节目类型、用户行为时长等构成用户行为数据集，具体内容如表 1所示。其中，行为类型包括浏览、点播、直播、收藏、回看、收藏；节目所属一级类别包括电视剧、电影、新闻、体育等；节目所属二级类别包括爱情、动作、喜剧等。

表 1 IPTV用户收视行为数据 Table 1 IPTV user viewing behavior data

2 IPTV隐式评分模型

本文通过构建隐式评分模型，将用户收视行为数据转化为用户隐式评分数据，用于提高IPTV推荐系统的推荐质量。

2.1 隐式评分模型设计

基于IPTV的隐式评分通常会考虑用户观看某节目的时长和节目本身时长的比值^[17]。在此基础上，本文制定了基于用户收视比值、用户兴趣偏置因子、视频类型影响因子的多特征隐式评分模型，计算公式如式(1) 所示：

$\begin{array}{l} {score = }\sum\limits_{{i = 1}}^{n} {} {[\alpha \times }{{f}^{(i)}}{(scale) + \beta \times }{{g}^{(i)}}{(interest)}\\ \quad \quad \quad { + \gamma \times }{{h}^{(i)}}{(category)]} \end{array}$

(1)

其中:score为用户对视频的隐式评分，scale是用户对该视频的收视比值，interest是用户兴趣偏置因子，category是视频类型影响因子，α、β和γ是权重，f、g和h分别是收视比值、用户兴趣偏置因子和视频类型影响因子的作用函数，f⁽ⁱ⁾表示第i次观看同一节目，如剧集类子集的作用函数, n为用户对同一节目观看的次数。2.2节中给出了三种特征的作用函数。

2.2 特征作用函数 2.2.1 收视比值作用函数

收视比值即收视时长与节目本身时长的比值，一般来说，收视比值越大，说明用户对视频的偏好程度也越大，隐式评分越高。为进一步研究收视比值对隐式评分的影响，本文统计了所有用户的收视比值及收视行为数量并绘制了收视比值的分布图，如图 1所示。

图 1 收视比值分布 Figure 1 Ratings ratio distribution

由图 1可知，收视比值分布呈现两边高中间低的特点，这说明在收视比值较高或较低的部分用户偏好比较明显，此时收视比值对隐式评分的作用比较大，比值居中部分的用户偏好较为模糊，因此使用余弦函数表示，结合以往的研究^[11]，最终制定收视比值作用函数公式如式(2) 所示:

$\left\{ {\begin{array}{*{20}{c}} {{ f(scale) = }{\rm{co}}{{\rm{s}}^{2}}(scale \times {\rm{\pi }}) \times scale}\\ {{ scale = behave\_len/item\_len}} \end{array}} \right.$

(2)

其中，scale是收视比值，作用函数如图 2所示。由图 2可知:在收视比值为0~20%时，f(scale)不断增加，此时，随着用户收视比值的增加反映出的用户兴趣程度也随之增加; 当收视比值在30%~50%左右时f(scale)存在明显的回落，此时，用户收视比值与用户兴趣程度成反比例关系，越接近50%说明用户的偏好越模糊，对隐式评分的影响越低; 在大于50%后f(scale)逐渐升高，此时，随着用户收视比值的增加反映出的用户兴趣程度也随之增加。

图 2 收视比值函数图像 Figure 2 Viewing ratio function image

2.2.2 用户兴趣偏置因子作用函数

用户兴趣偏置因子是按照用户收视比值均值将用户对视频的喜好程度划分为两部分，用户观看某一视频的收视比值高于平均收视比值的视为用户喜欢该视频；用户观看某一视频的收视比值低于平均收视比值的视为用户不喜欢该视频。

根据以上定义，计算用户兴趣偏置因子如式(3) 所示:

${r_{ij}}\mathsf{=}\text{lb}({{p}_{ij}}/{{\bar{p}}_{i}})$

(3)

其中:p_ij代表用户i对视频j的观看时长和视频j的本身时长的比值，p_i为用户i的平均收视比值。

以上所计算出的用户兴趣偏置因子需要进行归一化处理才能作为最终结果，假定max r_i表示用户i最大用户兴趣偏置因子，min r_i表示用户最小用户兴趣偏置因子。即:

max r_i=lb (max p_i/p_i)

min r_i=lb (min p_i/p_i)

归一化后的用户兴趣偏置因子作用函数如式(4) 所示:

$g(interest)=\frac{{{r}_{ij}}-{{{\bar{r}}}_{i}}}{\text{max}{{r}_{i}}-\text{min}{{r}_{i}}}$

(4)

其中，r_i表示用户i用户兴趣偏置因子的平均值，则对于每个用户兴趣偏置因子r_ij：g(interest)为正值表示用户喜欢该视频；g(interest)=1则表示用户最喜欢该视频；g(interest)为负值表示用户不喜欢该视频，g(interest)=-1表示用户最不喜欢该视频。

2.2.3 视频类型影响因子作用函数

视频类型影响因子主要用于衡量不同视频类型对用户偏好的影响。一般而言，每个用户都有自己喜欢的视频类型，如果视频属于用户喜欢的类型，则增加其隐式评分的值，有助于更加清晰地表现用户对视频的喜好程度。因此，加入视频类型影响因子作用函数，有助于提高推荐准确率。计算公式如式(5) 所示:

$h(category) = {l_{ij}}/{L_i}$

(5)

其中:l_ij为用户i观看的和视频j同一类型视频的总时长，L_i为用户i观看的所有类型视频的总时长。

2.3 特征值权重计算

对于多特征值问题，本文使用熵权法来确定每一个偏好特征的权值，通过统计的方法获得权重。将用户i的偏好特征表示成n×3阶矩阵B=(b_ij)_n×3，其中b_ij表示用户i第j个特征值。熵权法计算过程如下:

1) 标准化数据处理，如式(6) 所示：

${s_{ij}} = \frac{{{b_{ij}} - {\rm{min}}({b_{ij}})}}{{{\rm{max}}({b_{ij}}) - {\rm{min}}({b_{ij}})}}$

(6)

其中: s_ij表示用户i第j个特征值的大小，max (b_ij)与min (b_ij)分别是第j项特征权值的最大值和最小值。

2) 计算各种偏好特征的熵值，如式(7) 所示:

$\begin{array}{l} {H_i} = - N\sum\limits_i {{f_{ij}}\ln {f_{ij}}} \\ \left\{ {\begin{array}{*{20}{c}} {{f_{ij}} = {s_{ij}}/\sum\limits_i {{s_{ij}}} }\\ {N = 1/\ln 3} \end{array}} \right. \end{array}$

(7)

当f_ij=0时，有f_ij ln f_ij=0。

3) 计算权重，如式(8) 所示：

${\omega _i} = (1 - {H_i})/(k - \sum\limits_i {{H_i}} )$

(8)

通过以上方法便可计算出用户偏好模型中的每一种偏好特征的权值。

3 用户收视行为数据预处理模块

考虑到用户收视行为数据中包含噪声数据，需要对数据进行筛选以提高评分模型的准确性，从而保证推荐的质量。现有基于IPTV的隐式反馈推荐系统的研究中，通常选取较小的收视比值作为阈值，用来筛选用户收视行为数据。但是，对于较长视频，虽然收视比值较小，但观看时长较大，也能体现用户对该视频的偏好，所以单纯通过收视比值进行筛选过于理想化；而且从图 1中可以看出，有大量的数据分布在收视比值比较小的区间，单一使用用户收视比值来筛选用户行为是不合适的。本文提出基于收视时长和收视比值的筛选策略，通过线性回归模型分析用户收视时长的规律，设定合适的阈值，再结合收视比值制定数据筛选的依据。

3.1 节目收视时长的线性回归分析

首先分析收视时长的整体分布情况，统计结果如图 3。

图 3 用户收视时间图 Figure 3 User viewing time vs. number of behaviors

由图可以看出，收视时长与行为的个数总体呈现反比例函数关系，收视时长较大用户行为较少，依据线性回归模型，本文假设:

$y = {a_1}/t + {a_2}$

(9)

其中：y代表了收视行为个数，t代表收视行为时长，a₁、a₂是所求的参数。由式(1) 的假设可得到损失函数方程:

$J\left( a \right) = \frac{1}{2}\sum\limits_{i = 1}^m {{{(y_{}^{\left( i \right)} - \left( {{a_1}/t + {a_2}} \right)_{}^{\left( i \right)})}^2}} $

(10)

其中：m是收视行为的总个数，损失函数J(a)代表了假设的回归线与实际值之间的离散程度，通过计算最小化损失函数min(J(a))，就能求出回归方程的形式。本文采用了梯度下降算法求解回归方程。

经过计算，得到了收视时长与收视行为次数的函数关系如下:

y=234145.9/t-67.8

回归函数图像如图 4中曲线所示。

图 4 用户收视行为分布与回归函数 Figure 4 Distribution and regression function of viewing behavior

3.2 基于收视时长和收视比值的筛选策略

通过分析收视时长的分布，在收视时长较短的区间内存在较明显的奇异点，为了确定奇异点的范围，本文需要分析回归函数的残差平方和，如式(11) 所示:

$Q = \sum\limits_{i = 1}^m {{{(y_i^{} - \hat y_i^{})}^2}} $

(11)

Q越小，代表了回归函数拟合度越好，本文依次排除从0~x秒(x=1, 2, …)开始的行为次数数据，观察Q值变化，进而制定筛选的阈值。Q值变化如图 5，可以看到从15 s之后的Q值趋于稳定，因此本文选择15 s作为收视时长筛选的阈值。

图 5 回归函数残差平方和变化图 Figure 5 Residual sum of squares of regression function

结合收视百分比的筛选方法，本文制定出的筛选策略为将收视百分比小于10%同时收视时长小于15 s的收视行为数据筛选掉。这样的筛选策略充分考虑了用户收视时长较短的行为数据。

4 基于Hadoop的隐式评分模型设计

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序, 充分利用集群的威力进行高速运算和存储。本文采用基于Hadoop平台的编程设计，将大规模用户收视行为的数据转化为用户隐式评分。

4.1 IPTV隐式评分模型框架

基于Hadoop的IPTV隐式评分模型框架如图 6所示。由图可以看出，隐式评分模型的生成分为三个部分:第一部分，分别计算f(scale)、g(interest)、h(category)特征作用函数；第二部分，通过熵权法计算出特征作用函数的权重值α、β和γ，得到隐式评分模型；第三部分，计算出用户的隐式评分。

图 6 IPTV隐式评分模型框架 Figure 6 Framework of IPTV implicit scoring model

4.2 Category方法

此部分计算了用户观看各个分类视频的百分比的值，Map阶段将数据切割，提取用户ID、视频时长、观看时长等关键信息。Reduce阶段根据式(5) 计算用户对视频类型的用户兴趣偏置因子，同时还计算了用户平均收视比值，为下一部分的计算作准备。本模块的输出数据全部存储在Hadoop的HDFS上，其他模块访问HDFS可获得本次输出数据。

实现方法如下所示。

Mapper方法：

输入：< key=字节偏移量, value=用户收视行为数据>

输出：< key=用户ID，value=收视行为>

Mapper(){

使用转义字符"\t"切割数据

计算该视频观看时间比

percent=behave_len/item_len

输出 < key=用户ID, value=视频分类, behave_len, item_len, percent>

}

Reducer方法：

输入：< key=用户ID，value=收视行为>

输出：< key=用户ID, value=视频分类, behave_len, item_len, percent>

Reducer(){

PercentAll=0, n=0

for(all values){

统计用户观看视频总时长time

统计十四个视频分类每一个的用户观看总时长TypeTime

统计用户观看比值的和，PercentAll=PercentAll+percent

n++

}

计算用户观看各个大分类的收视比值

TypePercent=TypeTime/Time

计算平均收视比值

AvePercent=PercentAll/n

输出 < key=用户ID，value=TypePercent, AvePercent>

}

4.3 Interesting方法

此部分并没有计算出用户兴趣偏置因子，而是计算出用户计算用户兴趣偏置因子的中间值，计算得出了式(4) 中的max r_i、min r、r_i，为后续计算用户兴趣偏置因子作准备。实现方法如下所示。

Mapper方法：

输入：< key=字节偏移量, value=用户收视行为数据>

输出：< key=用户ID, value=项目ID, 观看时间比percent>

Mapper(){

使用转义字符"\t"切割数据

计算该视频观看时间比

percent=behave_len/item_len

输出 < key=用户ID, value=项目ID，观看时间比percent>

}

Reducer方法：

输入： key=用户ID, value=项目ID, scale, category, percent>

输出：< key=用户ID, value=scale, interest, category>

Reducer(){

读取上一段代码的输出，获得mininterst, maxinterest, Aveintrerst, Avepercent，n=0

for(all values){

$\mathit{interest}=\frac{\rm{lb}\left( {\mathit{percent}}/{\mathit{AvePercent}}\; \right)\rm{-}\mathit{Aveinterest}}{\mathit{maxinterst}-\mathit{mininterest}}$

}

Aveintrerst=suminterest/n

输出 < key=用户ID, value=项目ID，interest, scale, category>

}

4.4 Scale方法

此部分计算出用户隐式评分3个特征作用函数的值，通过式(2) 计算得到scale的值。得到的最终结果储存在HDFS中。计算方法如下所示。

Mapper方法：

输入：< key=字节偏移量, value=用户收视行为数据>

输出：< key=用户ID，value=项目ID，scale, category, percent>

Mapper(){

使用转义字符"\t"切割数据

计算收视比值percent=用户观看时长/视频时长

计算用户收视比值

读文件，获取用户对本类视频的观看比值category

输出 < key=用户ID，value=项目ID，scale, category, percent>

}

Reducer方法：

输入：< key=用户ID，value=项目ID，观看时间比percent>

输出：< key=用户ID，value=min, maxinterest, Aveintrerst>

Reducer(){

读取上一段代码的输出，获得AvePercent, n=0

for(all values){

同时求得mininterst, maxinterest, suminterest;

n++;

}

Aveintrerst=suminterest/n

输出 < key=用户ID，value=mininterst, maxinterest, Aveintrerst>

}

5 实验结果

本文基于Hadoop分布式实验环境，将提出的隐式评分模型应用于基于用户的协同过滤算法进行IPTV平台视频推荐，通过均方误差(Mean Squared Error, MSE)和准确率(precision)对视频推荐结果进行评估，与其他隐式评分模型进行对比，证明该模型有效提高了IPTV系统中推荐结果的质量。

通过调整Hadoop平台的分布式节点设置，证明该模型对于大规模数据具有良好的可扩展性。

5.1 实验环境

本次实验的硬件环境如下：节点数量5个，节点CPU为2核心，核心频率1.9 GHz，节点内存为4 GB，Hadoop版本为2.4.1。

本次实验将隐式反馈评分结果按1:9的比值分为验证集合和测试集合，测试集合作为基于用户的协同过滤算法的输入数据，推荐结果与验证集合进行对比。

本文选取均方误差(MSE)和准确率(precision)为衡量推荐结果的指标。均方误差是衡量“平均误差”的一种较方便的方法，可以评价数据的变化程度，准确率代表推荐的正确结果占推荐结果的比重，形式如式(12) :

$Precision = {n_{{\rm{fp}}}}/({n_{{\rm{tp}}}} + {n_{{\rm{fp}}}})$

(12)

其中:n_fp表示推荐系统推荐但用户没有收看的视频数量，n_tp表示推荐系统推荐且用户收看的视频数量。

5.2 隐式评分模型推荐结果

本文使用熵权法计算权重大小，按照第4章中设计的分布式隐式评分模型进行计算，最终得到的结果为α=0.0106，β=0.6272，γ=0.3622，形成的隐式评分模型，如式(13) :

$\begin{align} & {score=}\sum\limits_{{i=1}}^{{n}}{{}}[\alpha \times {{{f}}^{(i)}}{(percent)+} \\ & \quad \quad \quad 0.6272\centerdot {{{g}}^{(i)}}{(interest)+}0.3622\centerdot {{{h}}^{(i)}}{(category)]} \\ \end{align}$

(13)

将该隐式评分模型应用于基于Hadoop平台的并行协同过滤算法，计算推荐结果的准确率、均方误差。为验证模型的有效性，将推荐结果与直接使用收视比值的隐式评分模型、基于收视时长和收视比值的隐式评分模型^[18]进行对比，实验结果如表 2所示。

表 2 推荐结果对比表 Table 2 Comparison of recommended results

通过表 2可以看出，本文提出的多特征混合隐式评分模型在推荐系统应用中的准确率明显高于传统的基于收视比值的评分模型以及基于收视时长与收视比值的模型，且推荐结果的均方误差更小。实验表明本文提出的多特征混合隐式评分模型有效提高了IPTV系统中推荐结果的质量。

5.3 隐式评分模型

为了验证模型的并行化可扩展性，本文采用加速比作为模型可扩展性的评价指标。加速比能够评估在相同的数据规模下调整分布式计算节点数对模型运行性能的变化情况，如式(14) 所示:

${{S}_{p}}={{T}_{i}}/{{T}_{p}}$

(14)

其中:S_p代表加速比，T_i代表使用1个节点时的算法执行时间，T_p代表使用p个计算节点时的算法并行执行时间。加速比的值越大，模型可扩展性越强。

本文依据5.1节所给出的实验环境，将计算节点从1增加到5，并分别比较了在500用户规模、1000用户规模下的加速比。实验结果如图 7所示。从图中可以看出，在不同数据量下，加速比随着节点个数的增加而不断增长，类似线性增长，同时，随着用户量的增加，加速比也随之增加。由此得知，基于Hadoop的分布式模型在处理大数据集时具有很好的加速比，分布式计算节点越多，效果越好, 所以基于Hadoop的分布式隐式评分模型具有很好的可扩展性。

图 7 隐式评分模型加速比 Figure 7 Speedup of implicit scoring model

6 结语

本文从实际应用中的用户行为数据出发，分析IPTV用户历史行为数据，提出了一种衡量用户偏好的隐式反馈方法。通过这种方法，本文可以结合更多的隐式反馈以构建用户隐式评分模型; 同时，这种方法将来可以应用于更多隐式反馈分析的场景中。

参考文献(References)

[1]	郝芸霞, 金耀星. 国内外三网融合发展现状研究及分析[J]. 信息通信技术, 2011, 5(3): 51-55. (HAO Y X, JIN Y X. Research and analysis of triple play at home and abroad[J]. Information and Communications Technologies, 2011, 5(3): 51-55.)
[2]	崔永利. 基于隐语义模型的IPTV上下文感知推荐算法[D]. 上海: 华东师范大学, 2013. (CUI Y L. Latent factor model based iptv context-aware recommendation algorithms[D]. Shanghai:East China Normal University, 2013.) http://www.jylw.com/17/wz1965317.html
[3]	JOACHIMS T, GRANKA L, PAN B, et al. Accurately interpreting click through data as implicit feedback[C]//Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:ACM, 2005:154-161.
[4]	CLAYPOOL M, LE P, WASEDA M, et al. Implicit interest indicators[C]//Proceedings of the 6th International Conference on Intelligent User Interfaces. New York:ACM, 2001:33-40.
[5]	LEUNG W K, CHAN C F, CHUNG F L. An empirical study of a cross-level association rule mining approach to cold-start recommendations[J]. Knowledge-Based Systems, 2008, 21(7): 515-529. DOI:10.1016/j.knosys.2008.03.012
[6]	POPESCUL A, PENNOCK D M, LAWRENCE S. Probabilistic models for unified collaborative and content-based recommendation in sparse-data environments[C]//Proceedings of the 17th Conference on Uncertainty in Artificial Intelligence. San Francisco, CA:Morgan Kaufmann Publishers Inc, 2001:437-444.
[7]	ULUYAGMUR M, CATALTEPE Z, TAYFUR E. Content-based movie recommendation using different feature sets[EB/OL].[2016-11-20]. http://www.iaeng.org/publication/WCECS2012/WCECS2012_pp517-521.pdf.
[8]	GADANHO S C, LHUILLIER N. Addressing uncertainty in implicit preferences[C]//Proceedings of the 2007 ACM Conference on Recommender Systems. New York:ACM, 2007:97-104.
[9]	OARD D W, KIM J. Modeling information content using observable behavior[EB/OL].[2016-11-20]. http://terpconnect.umd.edu/~oard/pdf/asis01.pdf.
[10]	KELLY D, TEEVAN J. Implicit feedback for inferring user preference:a bibliography[J]. ACM SIGIR Forum, 2003, 37(2): 18-28. DOI:10.1145/959258
[11]	HU Y, KOREN Y, VOLINSKY C. Collaborative filtering for implicit feedback datasets[C]//Proceedings of the 8th IEEE International Conference on Data Mining. Piscataway, NJ:IEEE, 2008:263-272.
[12]	KOREN Y, BELL R, VOLINSKY C. Matrix factorization techniques for recommender systems[J]. Computer, 2009, 42(8): 30-37. DOI:10.1109/MC.2009.263
[13]	ZHENG Y, LIU C, TANG B, et al. Neural autoregressive collaborative filtering for implicit feedback[C]//Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. New York:ACM, 2016:1-6.
[14]	GUO W, WU S, WANG L, et al. Personalized ranking with pairwise factorization machines[J]. Neurocomputing, 2016, 214: 191-200. DOI:10.1016/j.neucom.2016.05.074
[15]	印鉴, 王智圣, 李琪, 等. 基于大规模隐式反馈的个性化推荐[J]. 软件学报, 2014, 25(9): 1953-1966. (YIN J, WANG Z S, LI Q, et al. Personalized recommendation based on large-scale implicit feedback[J]. Journal of Software, 2014, 25(9): 1953-1966.)
[16]	纪淑娟, 王理, 梁永全, 等. 基于神经网络的用户视频评分自动获取方法[J]. 计算机科学, 2015, 42(11): 96-100. (JI S J, WANG L, LIANG Y Q, et al. Neural-network-based method for automatic acquisiton of user's video rating[J]. Computer Science, 2015, 42(11): 96-100.)
[17]	KIM E, PYO S, PARK E, et al. An automatic recommendation scheme of TV program contents for IPTV personalization[J]. IEEE Transactions on Broadcasting, 2011, 57(3): 674-684. DOI:10.1109/TBC.2011.2161409
[18]	YUE J, GU J, ZHANG S. Spark-based distributed multi-features hybrid IPTV viewing implicit feedback scoring model[C]//Proceedings of the 2016 International Conference on Behavior Engineering. Macau:ISI, 2016:97-104.