巴西队提前出线,预定大力神杯?数据分析告诉你,到底谁才是冠军
2022年卡塔尔世界杯的第一轮小组赛,已经在众多惊诧、悲伤、惊喜的情绪中结束,而仅仅是第一轮的小组比赛,不断爆出的冷门就足以使人大跌眼镜了:
连续34场世界大赛不败的潘帕斯雄鹰——阿根廷,1-2负于世界排名51的沙特;
四届世界杯冠军得主的德意志战车——德国队,1-2负于从未进过8强的日本;
让无数强队忌惮的南美洲天蓝军团——乌拉圭,0-0被称为世界杯鱼腩的韩国队逼平;
自从揭幕战上卡塔尔打破了“世界杯揭幕战东道主必胜”的铁律,就预示了2022年卡塔尔世界杯注定是一场不平凡的大戏,也许世界杯冠军的宝座上会迎来又一位新王。
欢喜的背面一定是悲伤,此时一定有无数的球迷为自己的球队欢欣鼓舞,也一定有无数的球迷正在黯然神伤,最终究竟谁能捧起大力神杯,是众星璀璨的新人、还是老骥伏枥的旧主,没有人能猜得出,但我们或许可以从大数据预测中窥得一二。
构建世界杯预测的模型
(想看预测的直接略过这部分)
自从现代足球逐渐商业化之后,无数人开创了大数据分析模型来试图预测足球比赛的胜负,然而因为足球比赛的影响因素比吃饭喝水要复杂的多,球队阵容、球员能力、球员状态、球员心理、球队战术、球队磨合度、球队配合度等等,每一个因素的风吹草动,都会牵一发而动全身,影响最终的结果,预测的结果可能会与现实大相径庭。
但是大多数模型背后的机理,基本都有着泊松概率分布模型的影子:
这个模型看起来复杂难懂,其实它有着朴素且美丽的魔力,能够“准确”预测几乎所有事件的发生概率,它的原理则更为简单,可以用几句话就解释清楚:
我工作时会喝水这个事情,要么发生、要么不发生;我喝水这个事情在某个时间段内我是已知的,比如平均一上午喝两次水;我喝水这个事情在某个时间段内发生的概率是一样,任何时候都可能喝水;我这次喝水和下次喝水的事件是独立的,互不影响;那么,这个事件就可以用泊松分布的公式进行解释,以足球预测为例,我们可以以“某队在一场比赛中进球”为事件,用K表示我们期望球队进几个球(事件发生多少次),用λ表示在一场比赛的时间内发生事件的平均数,这个我们可以通过每个球队世界杯上每场比赛的场均进球即可,最后得到一个概率图形,进而得出一个球队进1个球的概率、进2个球的概率、进N个球的概率分别是多少:
而正是因为足球是复杂多变的,不能仅仅用场均进球来估计结果,因此我们通过球队的场均进球、场均失球、场均胜率、场均败率、场均平率等数据来综合估算出一个球队的实力,当然这个模型就各有各的算法,我们就取最简单的“攻击力”模型。
通过BI进行分析和解释
首先就是解决数据的问题,好在所有国家队的数据都可以从网上进行下载,然后在excel中计算出每个球队进球的泊松概率:
然后我们将数据导入到专业的数据分析软件FineBI中,进行进一步的数据清洗和处理,首先就是对数据进行数据合并,按照世界杯小组赛的分组将不同的数据进行合并,组建出“某队对战某队”的数据格式,然后利用我们的“攻击力”模型,导入数据函数新建出几个数据列,表示球队的进攻力指数:
具体过程这里就不赘述了,数据清洗阶段结束后就要对数据进行可视化分析了,利用FineBI的可视化操作界面可以很轻松的组合出我们想要的数据,比如身价对比、夺冠对比、净胜球对比等等,最终美化一下就可以呈现出这样的效果:
预测出线概率详解
最重点的是我们根据“进攻力指数”估算出了每个球队的进攻强度,然后利用泊松概率就可以算出每场比赛球队最可能的比分,这里我们用场均进球展示:
表中像卡塔尔这种第一次参加世界杯的国家,因为缺少历史数据参考,因此只能根据亚洲成绩将攻击力人为地设定一个值,所以是比实际实力要虚高的。
我们可以以G组为例,表格中的数据展示,喀麦隆对瑞士的净胜球大概率为-0.57,而瑞士对喀麦隆的净胜球大概率为0.71,即双方差距1.28个球;而现实结果中,瑞士与喀麦隆的成绩是1:0,与数据预测的相差无几;
这时候我们再来看一看为什么说开头的那三场比赛,冷门的离谱:
数据预测,阿根廷对沙特的净胜球大概率为3.29,比分预测为3:0,而实际结果是1:2落败;
德国对日本的净胜球大概率为2.48,比分预测为2:0,而实际结果是1:2落败;
乌拉圭对韩国的净胜球大概率为1.06,比分预测为1:0小胜,而实际结果确实0:0被韩国逼平;
根据其他专业机构的预测数据现实,赛前沙特战胜阿根廷的胜利不足1%,然而种种因素却造就了本届世界杯上最大最大的冷门,也让阿根廷人品尝了亚洲足球的苦果。
用这个模型继续推导可以模型出最终淘汰赛的最终结果,这里因为系统还需要优化就没有继续推导,但是在finebi里计算了一下,结果显示巴西本届世界杯夺冠的概率是最大的,概率与前几天疯狂流传的大数据机构预测机构相差不多:
此外我还做了一些其他有意思的数据统计,比如球员身价统计:
冠亚军数量对比:
国家队平均年龄对比:
加纳平均年龄只有24岁,绝对的青春风暴;而西班牙也只有25岁,这支斗牛士军团正在更新换代的关键期,以加维为代表将继续扛起伊比利亚足球的大旗;
巴西、比利时、阿根廷、克罗地亚的平均年龄都在27岁以上,阵中老将非常多,如内马尔、德布劳内、莫德里奇、梅西、迪马利亚等足球历史上闪耀的明星,都已进入了职业生涯末期,世人最不肯见英雄迟暮,但他们都将为了自己一生的理想而拼尽最后一秒。
数据是冰冷的,足球是温暖的,数据预测并不能取代和代表现实,赢负胜败并不全部,真正让我们着迷的是场上的22名球员、与场下的教练、球迷一起为追求理想而不断敲开紧闭的大门,奋力揭开幸运女神身上冰冷的面纱,而这正是足球、正是世界杯的魅力所在。
因为,我们爱足球当然不是爱他的成败,我们爱的就是那种气质,不是吗?