文章快速检索     高级检索
  上海体育学院学报  2017, Vol. 41 Issue (1): 77-82  DOI: 10.16082/j.cnki.issn.1001-4578.2017.13
0

引用本文 

刘天彪, Hohmann Andreas, 陈丘, 雷天悟, 薛俊. 基于Apriori算法的高水平女足比赛进攻模式——以2012年“阿尔加夫杯”决赛为例[J]. 上海体育学院学报, 2017, 41(1): 77-82. DOI: 10.16082/j.cnki.issn.1001-4578.2017.13.
LIU Tianbiao, Hohmann Andreas, CHEN Qiu, LEI Tianwu, XUE Jun. [J]. Journal of Shanghai University of Sport, 2017, 41(1): 77-82. DOI: 10.16082/j.cnki.issn.1001-4578.2017.13. .

基金项目

教育部留学回国人员科研启动基金资助项目;中央高校基本科研业务费专项资金资助项目(北京师范大学青年教师基金资助项目,SKXJS2014013)

第一作者简介

刘天彪(1983-),男,河北秦皇岛人,北京师范大学讲师,博士;Tel.:15901019831,E-mail:LTB@bnu.edu.cn

通信作者简介

薛俊(1963-),男,安徽合肥人,惠州学院教授,中国足协职业联赛比赛监督;Tel.:13692824942,E-mail:13692824942@163.com

文章历史

收稿日期: 2016-06-10
修回日期: 2016-09-05
基于Apriori算法的高水平女足比赛进攻模式——以2012年“阿尔加夫杯”决赛为例
刘天彪1, Hohmann Andreas2, 陈丘3, 雷天悟4, 薛俊5     
1. 北京师范大学 体育与运动学院,北京 100875;
2. 德国拜罗伊特大学 体育系,拜罗伊特 95447;
3. 德国波恩大学 发展研究中心(ZEF),波恩D-53113;
4. 河北工业大学 计算机科学与软件学院,天津 300401;
5. 惠州学院 体育系,广东 惠州 516007
摘要: 为解决足球比赛中“频繁出现的球员组合”问题,发现足球比赛中球员之间的关系,以数据挖掘为基础的比赛分析技术开始应用。本研究使用的比赛诊断分析方法改进了以往研究中的算法的数据结构,使之能够发现与创造得分机会有关的球员或球员关联,即“最佳球员(组合)”。以2012年“阿尔加夫杯”决赛中的德国女足和日本女足所有技战术行为发生的时间、区域以及涉及球员等特征为研究对象,利用比赛诊断分析方法对这2支球队进行诊断分析,发现其“频繁出现的球员组合”以及和得分机会有关的“最佳球员(组合)”。
关键词: 女足比赛    进攻模式    Apriori算法    数据挖掘    阿尔加夫杯    
Apriori-based Performance Analysis on Offense Models of Elite Women's Football Games: A Case Study of Algarve Cup 2012
LIU Tianbiao1, Hohmann Andreas2, CHEN Qiu3, LEI Tianwu4, XUE Jun5     
1. School of Sports and Physical Education, Beijing Normal University, Beijing 100875, China;
2. Institute of Sports Science, University of Bayreuth, Bayreuth 95447, Germany;
3. Center for Development Research, University of Bonn(ZEF), D-53113 Bonn, Germany;
4. School of Computer Science & Engineering, Hebei University of Technology, Tianjin 300401, China;
5. Department of Physical Education, Huizhou University, Huizhou 516007, Guangdong, China
Abstract: In order to find out the "frequent player combinations" and connections between players in a football match, the data mining-based football game research has recently been developed. The performance analysis of this study based on updated data structure of previously used Apriori algorithm can help to identify a player or players in relation to chances of scoring. With a focus on time, zones, and related players of all the tactics and techniques of both teams in the final game of Algarve Cup 2012, the paper directed a performance analysis and found the "frequent player combinations" as well as the "Best players (combinations)" with chances of scoring.
Key words: women's football games    offense models    Apriori    data mining    Algare Cup    

比赛分析是训练科学研究的问题之一,它包含对参赛主体在比赛中表现的诊断和诊断后的分析。没有科学的诊断,对运动训练过程的有效控制是不可能实现的[1]。对比赛的诊断基于比赛表现数据,从数据中发现比赛中存在的问题并提出诊断结果,基于诊断结果并结合实际情况对参赛主体进行有针对性的分析。球类比赛的分析与诊断既是赛前训练的一个重要环节,又是下一轮训练工作的起点,其在整个球类项目的训练过程中起着极其重要的作用[2]。长期以来对足球比赛中球员和球队的观察和分析大都使用传统的描述统计方法[3-5],这些方法多采用百分比统计指标,可以在宏观上描述队员和比赛,但是足球比赛是比赛双方相互影响的动态过程[6],仅仅使用百分比进行描述统计的方法无法发现比赛中球员之间的关系,也难以根据分析出的结论协助教练员直接修改比赛安排。

潘昌磊[7]、Li等[8]提出了使用数据挖掘技术对足球比赛的战术行为进行分析,以期解决寻找“最佳球员组合”的问题;Liu等[9]则应用了购物篮分析技术分析了2011年欧洲冠军联赛决赛双方的进攻行为。以上这些研究均基于Apriori算法,使用这一经典算法的目的在于挖掘现在数据集中的频繁模式;但是这些研究并未完全解决“最佳球员组合”问题,在足球场上,最频繁的传球并不一定是最有效的进攻手段。如在不考虑对手的情况下,后卫和守门员在本方球门区内频繁地互相传球并不能创造任何得分机会。故出现频率很高的组合不一定是“最佳球员组合”,而“最佳球员组合”也并不一定经常出现。

本文将球员与得分机会放在一起进行分析,对经典的Apriori算法进行了修改并建立模型,将结果通过网络图(tendency network)进行直观展示。同时以2012年女足“阿尔加夫杯”决赛德国女足对日本女足为例,使用数据结构改进后的Apriori算法并建立模型,有针对性地分析两队“频繁出现的球员组合”和“最佳球员(组合)”。其中,“最佳球员(组合)”被定义为与攻入进攻三区(前场35 m区域)有关的球员组合或单个球员。研究这类国际顶级女足球队之间的比赛有助于了解世界女足的最新发展,并为我国女足项目的开展提供参考。

1 研究对象与方法 1.1 研究对象

2012年女足“阿尔加夫杯”决赛中所有技战术行为发生的时间、区域以及涉及球员等特征。

1.2 研究方法 1.2.1 录像观察法

使用来自德国足球协会(DFB)技术部门的比赛录像,2名独立观察者使用系统的结构化比赛观察方法[10]完整记录整场比赛。本场比赛的视频为现场的技术人员录制,经检查保证所有的技战术动作能够被清晰和精确地观察和回放。

1.2.2 数理统计法

使用SPSS19、Excel2013以及微软数据挖掘套件等软件进行数据的存储与处理。

1.2.3 专家访谈法

电话访谈了北京体育大学张廷安教授、李春满教授以及浙江大学张辉教授和女足国家队助理教练员、北京师范大学女足教练员毕妍等专家,对比赛诊断分析有关的理论和实践进行探讨。

1.3 比赛场地

图 1所示,本文将足球场划分为30个区域,其中,整个球场被均分为等长的3部分,即前场、中场和后场,每部分长35 m,占整个球场长度(105 m)的1/3,之后确定进攻方向(图 1为从右向左)。

图 1 场地划分 Figure 1 Spatial division of soccer field areas
2 基于改进的Apriori算法的足球比赛关联分析方法设计 2.1 比赛观察模型

通过球员观察系统[11]对比赛进行分析(图 2)。足球是传球的运动,球员之间通过球的移动被联系在一起,在比赛中,每名球员都代表一个状态。比赛就是由双方一系列控球过程组成的,每一个控球过程被称作序列(链),包含若干个状态(球员)。序列(链)起始于得到控球权,终止于失去控球权。例如,一个控球链起始于守门员发球门球,经过若干状态,最后终止于在对方前场35 m区域内控球权丢失。控球权丢失于射门偏出、传球失误或其他情况。

图 2 球员观察系统 Figure 2 Player observation system
2.2 数据分析方法 2.2.1 数据记录、清理和预处理

通过设置在球场主席台区域的摄像机对比赛进行录制,球员的技术和战术行为以及队员号码等信息均会被编号并详细记录。笔者追踪球和球员所经过的路径,记录他们每一次技战术行为所处的区域,并记录在一个控球链末端该进攻是否进入了进攻三区(创造了得分机会)。在这一过程结束之后,为了得到需要的结果,数据需要被清理并进行预处理。本文每一个控球链保留最后5个状态,然后进行数据处理。

2.2.2 数据处理

在数据清理和预处理之后,使用数学以及分析性统计方法进行数据文件的分析,在此使用的是基于优化过的Apriori算法。

2.2.3 Apriori算法

足球是团队项目,球员之间通过传球产生关联。每个球队都会有自己的核心队员以及相对固定的行为模式或传球模式,故本文引入Support和Probability(即Confidence)分别表示出现的频率以及置信度。Support代表一个关联规则出现的频率,而Probability代表此关联规则的强度或效率,计算方法(详细算法请参考Han J等[12]的方法)如下:

  伪代码如下:

  //Data:训练样本

  //S:Data中的一条进攻序列

  //item:S中的一条记录

  //Item:单个序列

  //N:待挖掘的序列长度

  //Pack_N:序列长度为N的背包

  //Count:背包中元素的个数(统计结果)

for(S in Data)

  {

  n=N;for(item in S)

   {

    Item.clear();

    Item.append(item)

    Pack_N.append(Item);

    n--;

while(n--)

   {

    if(item->next)

   {

    Item.append(item->next);

    if(Item in Pack_N)

   {

    Count[Pack_N.find(Item)]++;

   }

    else

   {

    Pack_N.append(Item);

    Count.append(1);

   }

    item=item->next;

     }

   }

  }

 }

2.3 数据的有效性

在2名独立观察者通过球员观察系统分别对比赛进行统计之后,进行了Cohen's Kappa检验,结果为κ=0.53(对于球员系统)。这一结果表明,球员比赛观察系统具有较好的客观性,统计数据可以用于分析研究[13]

3 基于改进的Apriori算法的足球比赛诊断方法的应用及研究结果 3.1 德国女足上半场比赛

表 1显示了德国女足上半场球员之间的典型关联,这些关联的频率和强度分别用Support和Probability值表示。其中,德国女足14号、4号以及进球机会组合出现在同一个进攻链中的频率是1.45%;但是,当在一个进攻链中同时包含14号和4号队员时,该进攻链能创造得分机会的可能性是86%,即86%的可能性进入前场35 m。这是一个比较高的值。同样,当13号队员和7号队员共同出现时,创造得分机会的可能性为83%。

表 1 德国女足上半场球员关联 Table 1 Association rules:Connections between players for Germany (First half)

图 3显示的是根据计算出的关联规则结果得到的德国队上半场进攻趋势的关联网络图,它不仅可以直观地反映球员之间的一般关联,而且可以反映比赛中重要的关联。图 3中有3种箭头:虚线箭头表示一般的球员关联[14],可以看出德国女足所有队员的一般关联;黑色箭头表示球员之间的强关联,而最粗的黑色箭头则表示非常强的、与创造得分机会有关的球员之间的联系。由图 3可见,德国女足在上半场是活跃的、能够创造得分机会的队员以及这些进攻主要来自左路的4名球员(4号、14号、13号和7号)之间的联系,包括20号→4号、13号→4号、7号↔ 4号,还有13号↔7号以及4号↔14号。其中重要的、能够创造得分机会的关联为13号↔7号以及4号↔14号,这类关联需要在后面的比赛中提高使用频率。尽管关联规则7号↔4号出现频率很高,但是该规则的强度并不高,因为其与创造得分机会几乎无关。

图 3 上半场德国女足进攻趋势关联网络 Figure 3 Dependency network:Player passing trend for Germany (first half)
3.2 德国女足下半场比赛

表 2显示了德国女足球员在下半场比赛中的关联规则以及规则的频率和强度,17号、2号球员以及进球机会共同出现在同一个控球链中的可能性是1.96%,而当2号和17号球员同时出现在一个控球链中时,在该控球链中出现进球机会的可能性为71%。同样当9号和2号队员同时出现时,接下来出现球进入前场35 m区域的可能性达到71%。

表 2 德国女足下半场球员关联 Table 2 Association rules:Connection between players for Germany (second half)

德国女足在下半场比赛中的表现如图 4所示,可以看出德国队的一般关联较上半场频率少,并且比较分散。强关联有7号↔9号以及 4号→7号,均与左路7号队员有关,而能够创造得分机会的关联均与右路2号球员有关,2 号↔9号和2号↔17号。这就产生了一个矛盾,出现频率较多的左路强关联并没有与创造得分机会的右路强关联产生联系,即德国女足在下半场的进攻主要是左路,然而效率并不是很高;相反,虽然右路的进攻数量较少,但是效率更高。同时也可以看到德国女足队员之间在下半场的横向联系较少,尤其是中场。

图 4 下半场德国女足进攻趋势关联网络 Figure 4 Dependency network:player passing trend for Germany (second half)
3.3 日本女足上半场比赛

日本女足在上半场受德国女足压制,从表 3可以看出,日本女足在上半场只有为数不多的与攻入对方危险区域有关的关联,分别是7号→35和17号→35,支持度分别是1.49%和1.24%,强度分别只有43%和42%。

表 3 日本女足上半场球员关联(1) Table 3 Association rules:Connection between players for Japan (first half) (1)

这一结果意味着日本女足在上半场比赛中整体处于下风。通过反应关联规则强度的Probability值可以看到,日本女足进入前场35 m区域的机会较少。反之,在上半场日本女足的进攻链中有一些典型的球员组合,只要出现这些球员,那么这次进攻有较大的可能无法进入对方危险区域内,特别如表 4中的规则1:当日本女足6号和13号同时出现在一条进攻链中,那么可以确定这次进攻100%无法进入前场35 m(36代表没有进入前场35 m区域)。

表 4 日本女足上半场球员关联(2) Table 4 Association rules:Connection between players for Japan (first half) (2)

图 5可以看出,日本女足在中后场的传球和右路传球频率较高(虚线箭头代表日本女足控球的一般关联),但是在图 4中并没有强关联和创造得分机会的关联,说明日本女足并未通过球员之间的配合获得良好的得分机会。

图 5 上半场日本女足进攻趋势关联网络 Figure 5 Dependency network:Player passing trend for Japan (first half)
3.4 日本女足下半场比赛

表 5可以看出,日本女足下半场比上半场有更多的和攻入前场35 m有关的球员组合,这些关联规则有9号↔17号、8号↔9号、8号↔17号以及9号↔13号。这些组合都意味着在包含这些球员的控球链中,有超过60%的机会攻入对手的防守三区。此外,日本女足9号队员与创造得分机会一起出现在同一个进攻链的概率占所有进攻链总数的4.58%,说明在下半场其9号队员非常活跃。

表 5 日本女足下半场球员关联 Table 5 Association rules:Connection between players for Japan (second half)

日本女足在下半场更换了球员并改变了阵型,球员之间出现了更多的关联。图 6所示为日本女足下半场的比赛情况,球员之间的一般联系更多,并且横向联系加强,同时出现了强关联以及和得分机会相关的重要关联(9号↔17号、8号↔9号、8号↔17号),这些球员之间的重要关联构成了下半场日本女足的进攻三角,这些球员之间的关系总是能和攻入对手防守三区并带给对手威胁相联系。

图 6 下半场日本女足进攻趋势关联网络 Figure 6 Dependency network:Player passing trend for Japan (second half)
4 讨论

足球比赛以传球为主要的比赛方式,故在球场上最重要的是球员间的关联。本文提出了一种新的足球比赛表现分析的方法和手段,该方法基于Apriori算法,并在应用算法进行计算前对数据进行了清理和预处理。分析了2012年女足“阿尔加夫杯”决赛德国队与日本队的比赛,得出了球员观察系统的关联规则,找出了“最佳球员组合”以及“频繁出现的球员组合”,其中,“频繁出现的球员组合”这一结果得到了以往研究[14]的支持。

在本研究中,首先定义了得分机会的概念,进球数与前场控球率有非常显著的相关性[15]。现代足球的发展使得在前场35 m区域内(进攻三区)射门得分的概率越来越大;因此,当一方球队的进攻进入了前场35 m区域,就意味着极有可能取得进球,即攻入35 m区域是加大进球概率的前提,因此将得分机会定义为控球链进入前场35 m。

有研究表明,在本方获得控球权后,进球的概率随传球次数的增多而下降,在5次传球之后进球的概率很小[16-18]。本文认为,控球链的终止也与其前5步之内的状态关联度更高,故本文对已有的Apriori算法进行了修改,缩短了控球链的长度,目的是使购物篮模型中的球员和得分机会之间的关联度更高。

本文将球员与事件(创造得分机会)放在一起进行数据挖掘,这样不但可以发现“频繁出现的球员组合”,同时也可以发现球员或球员组合与得分机会的关联。频繁与得分机会产生联系的球员或球员组合一定是在进攻中最有效率的“最佳球员组合”(即教练员需要在比赛中发现的核心球员或核心球员组合)。在进行数据挖掘时,须尽可能寻找既频繁又高效率的组合,并将信息提供给教练员。

5 结论与展望

基于Apriori的数据挖掘算法对2012年女足“阿尔加夫杯”决赛双方球队的进攻模式进行了分析,上半场德国队位于左路的球员(4号、7号、13号、14号)制造了更多的进攻并得分的机会,典型的和创造得分机会有关的球员组合为14号和 4号,13号和7号;而下半场德国队只有右边后卫(2号)与创造得分机会有关。反之,在德国队的压力下,日本队上半场的进攻效率不高,很少出现高效率的进攻模式;下半场日本队更改了比赛阵型、调整了球员位置,打出了更多的进攻,并创造出了更多的得分机会。特别是日本队前场3名球员(8号、9号、17号)互相之间的联系是日本队下半场多次威胁德国队后防的重要原因。这也是日本队下半场进攻的主要模式。

近年来,随着中国足球水平的提升,各种足球数据相关的分析软件和视频软件也逐渐被应用于国内比赛中,如中超联赛使用的Amisco®等,教练员也意识到了数据对于球队的重要性;但是对于数据的利用目前还是短板,数据的价值还未被完全体现。教练员需要的正是数据背后的信息,对数据进行挖掘则可以发现这些信息,帮助教练员更好地使用数据和分析比赛。

数据挖掘应用于体育比赛的研究是一个新兴的领域,故算法和数据结构需要不断改进以模拟真实比赛,进而优化比赛分析;此外,在视频分析中,如果有更加清晰的录像,比赛诊断分析的结果将更加理想。

参考文献
[1] 田麦久. 运动训练学[M]. 北京: 人民体育出版社, 2000: 73. (0)
[2] 张辉, 霍赫曼·安德烈亚斯. 球类比赛数学模拟竞技诊断的理论与实践——以乒乓球比赛分析为例[J]. 体育科学, 2005, 25(8) : 39-44 (0)
[3] 全涛, 孙雪翰. 2008年中国足球超级联赛成绩与技术统计的因子分析[J]. 数理统计与管理, 2011, 30(2) : 370-380 (0)
[4] Bangsbo J, Reilly T, Hughes C. Science and football[M]. 1997: 209-266. (0)
[5] Alcock A. Analysis of direct free kicks in the women's football World Cup 2007[J]. European Journal of Sport Science, 2010, 10(4) : 279-284 DOI:10.1080/17461390903515188 (0)
[6] Camerino O F, Chaverri J, Anguera M T, et al. Dynamics of the game in soccer:Detection of T-patterns[J]. European Journal of Sport Science, 2012, 12(3) : 216-224 DOI:10.1080/17461391.2011.566362 (0)
[7] 潘昌磊. Apriori算法在足球技战术分析中的应用[J]. 电脑知识与技术, 2010, 31(6) : 8835-8837 (0)
[8] Li Y, Luo H, Luo J. Research on data mining technology in football tactics[J]. Advances in Information Sciences & Service Sciences, 2012, 4(10) : 374-381 (0)
[9] Liu T, Hohmann A. Applying data mining to analyze the different styles of offense between Manchester United and FC Barcelona in the European Champions League Final[J]. International Journal of Sports Science and Engineering, 2013, 7(2) : 67-78 (0)
[10] Lames M. Systematische spielbeobachtung[M]. Münster: Philippka, 1994: 6-7. (0)
[11] Liu T, Hohmann A. Applying the markov chain theory to analyze the attacking actions between FC Barcelona and Manchester United in the European Champions League Final[J]. International Journal of Sports Science and Engineering, 2013, 7(2) : 79-86 (0)
[12] Han J, Kamber M, Pei J. Data mining:Concepts and techniques[M]. Amsterdam: Elsevier, 2011: 246. (0)
[13] Landis J R, Koch G G. The measurement of observer agreement for categorical data[J]. Biometrics, 1977: 159-174 (0)
[14] Liu T, Hohmann A, Castro C, et al. Systematische spielanalyse im frauenfußball-finale des algarve cups 2012 Deutschland-Japan[J]. Zeitschrift für Angewandte Trainingswissenschaft, 2014, 21(2) : 172-193 (0)
[15] Bate R. Football chance:Tactics and strategy[J]. Science and Football, 1988: 293-301 (0)
[16] Anderson C, Sally D. The numbers game:Why everthing you know about football is wrong[M]. London: Penguin UK, 2013: 173. (0)
[17] Garganta J, Maia J, Basto F. Analysis of goal-scoring patterns in European top level soccer teams[J]. Science and Football III, 1997: 246-250 (0)
[18] 薛俊, 李阳, 郭长久. 第18届世界杯足球赛决赛阶段各队进攻进球特征研究[J]. 中国体育科技, 2007, 43(1) : 36-40 (0)