MLFA(2):足球数据分析常用数据集介绍
要将机器学习算法应用于足球数据分析,就必须先有一套关于比赛内容的数据集。本专栏的第二篇文章将介绍足球数据分析领域常用的两种数据类型:事件数据 与 追踪数据,并介绍每种类型中比较知名的数据提供商,以及他们免费公开的数据集。
本篇文章部分内容参考 Soccer Analytics Handbook
事件数据
事件数据(event data, a.k.a. play-by-play data)描述了一场比赛中每次有球处理的详细信息。具体而言,第三方数据公司从比赛录像中由人工标注出每一次处理球事件,例如传球、射门、盘带、争顶等等,并记录下该事件的 球员、时间、地点(在球场上的坐标)以及 其他详细信息(例如使用的左脚还是右脚、是否成功)。据统计,一场比赛的事件数据大约包含 1700 次事件,且其中约一半的事件为传球。[1]
由事件数据绘制的某个进球的路线图,其中虚线表示带球,箭头表示传球或射门(数据来自 StatsBomb)比较知名的事件数据提供商有 Wyscout、StatsBomb 以及被 Stats Perform 收购的 Opta 等。其中,Wyscout 和 StatsBomb 各公开了一部分数据,且 StatsBomb 还提供了一种包含 冻结帧(freezing frame)的数据。
Wyscout 公开数据
Wyscout 的公开数据 涵盖了 1941 场比赛, 约 300 万个事件,涉及 4299 名球员。具体包含的赛事如下表所示。
赛事赛季比赛数量英超17/18380西甲17/18380德甲17/18306法甲17/18380意甲17/18380欧洲杯201651世界杯201864合计1941StatsBomb 公开数据
StatsBomb 的公开数据 涵盖的赛事范围更加广泛,不仅兼顾男足女足,而且时间跨度上包含了一些年代较久远的比赛,如英超 03/04 赛季中赛季不败的阿森纳的比赛、梅西在巴塞罗那的生涯中所有出场的西甲比赛、99/00 赛季起的部分欧冠决赛。具体包含的赛事如下表所示。
赛事赛季比赛数量男足世界杯201864欧洲杯202051英超(阿森纳)03/0433西甲(梅西)04/05 – 20/21520欧冠(决赛)99/00 – 18/1914女足世界杯201952美国国家联赛201836英超18/19 – 20/21326合计1096在传统的事件数据中,一个事件的信息仅包含了与该事件相关的球员位置,而场上其他球员的位置不会被记录。而 StatsBomb 的数据则包含 冻结帧,即同时记录了事件发生瞬间镜头中其他球员的位置。不过,StatsBomb 的公开数据仅在 2020 年欧洲杯的 51 场比赛中为每个事件都记录了冻结帧(这个数据类型被 StatsBomb 称为 360 data),而在其他赛事中只对每脚射门记录了冻结帧。
前图中射门时刻的冻结帧(数据来自 StatsBomb)追踪数据
追踪数据(tracking data) 记录了一场比赛中每时每刻足球和场上球员的位置坐标。这类数据是由球员比赛时的穿戴设备直接收集获得,或者通过计算机视觉的手段从录像中估算而得。最先进的技术设备可以得到帧率达 25 Hz 的追踪数据,即每场比赛约 14 万帧数据。比较知名的追踪数据提供商有 Matrica Sports、 Stats Perform 、Second Spectrum 等。
然而,想要获取场上所有球员的追踪数据需要在场馆内装配相应的硬件设施,并非每一场比赛都有条件得到这类数据。退而求其次,我们可以只关注直播镜头中可见的球员位置,这就衍生出了 直播镜头追踪数据(broadcast tracking data)。这类数据的提供商有 SkillCorner、Sportlogiq 等。
Matrica Sports 和 SkillCorner 各公开了一小部分追踪数据,具体情况如下。
Matrica Sports 公开数据
Matrica Sports 的公开数据 包含三场匿名比赛,帧率为 25 Hz。除了场上所有球员的追踪数据外,还提供了与追踪数据时间对齐的事件数据。同时拥有时间对齐的追踪数据和事件数据往往更有利于分析工作的进行。
SkillCorner 公开数据
SkillCorner 的公开数据 包含了 19/20 赛季五大联赛冠亚军之间的共 9 场比赛[2]的直播镜头追踪数据,帧率为 10 Hz。由于 SkillCorner 本身并不是事件数据提供商,因此,必要时,使用这些数据需要将其和其他提供商的事件数据进行时间对齐。
在下图中,我们可以明显观察到该类数据只能追踪到镜头区域内的球员。据统计,直播镜头追踪数据平均每帧只能捕获到 14 名场上球员。
由于足球场地大、人员多的特点,数据收集难度大,起步也较晚。在足球以外,例如篮球,NBA 从 2013 年起就引入了 Stats Perform 的 SportVU 系统,在场馆内安装设备收集追踪数据。
虽然如今已有很多数据提供商开始收集足球数据,但免费公开的数据相对于提供商掌握的数据还是凤毛麟角,希望将来能有更多的公开数据提供给拿不到合作的研究者和足球分析的业余爱好者使用,促进足球数据分析领域的技术进步。
从下一篇文章开始,我将开始分专题介绍机器学习在足球数据分析中的应用。
PS: 下一篇选什么专题还没想好,可能先搞点简单的 :)