故弄玄虚?胜负模型到底在计算什么——足球竞彩中的数学
最近几天,发了几篇关于足球数据的文章,有幸受到了很多朋友的关注和鼓励,不少粉丝私信询问计算模型的原理以及怎么应用,这里统一做一个回复,了解了本模型的运行方式可以更好的利用分析结果。
问题1:模型算的到底是什么?
容我举个例子,西甲升班马巴列卡诺 目前排名联赛第六,力压巴塞罗那位列欧战区。期间四比零大胜格拉纳达,爆冷击败巴萨的战绩可圈可点,堪称本赛季五大联赛数得着的黑马,我们以此为例。
遇到巴列卡诺的比赛,现在大家都知道这是一支实力不容小觑的黑马球队,会说这支球队最近状态不错很强。具体强在哪里呢?
本赛季巴列卡诺主场6胜1平保持不败,客场1胜3平5负,典型的主场龙客场虫主场场均进2.29球,高于联赛平均水平(1.32球),场均失0.5球,低于联赛平均水平(1.08)。客场场均进1球,低于联赛平均水平,场均失1.89球,高于联赛平均水平。现在就可以具体地说,巴列卡诺主强客弱,而且主队的攻防两端都强于联赛平均水平,客场攻防两端都弱于联赛平均水平。
遇到任何一支西甲球队,都可以通过对比两队主客场的攻防强度和联赛整体的攻防强度,得出在对方攻守强度下的进球数。(运用到概率论中的泊松过程,由以上数据进行的纯 数学运算,这里不做展开)
回答:模型计算的就是球队保持过去20场左右比赛状态面对当前对手20场比赛平均的攻防强度能够进球的数量。简单来说,就是“球队平均水平”,用数字更精确直观地表达出来。
拜仁和巴萨的比分概率分布
问题2:计算没问题,模型为什么能反映结果?
随之而来的问题:足球是圆的,为什么要用过去的比赛去推断未来的比赛?战术球员突发情况都随时随地发生变化,这种纯数据分析是否过于片面?
这里涉及到本模型的的一个核心假设:我们默认一支球队在一段时间内(通常是一个赛季尺度),无论战术人员临时做怎样的调整,其整体成绩会在其实力线上下浮动。
这一假设提供了本模型的逻辑基础,把一场足球比赛作为一个有无限多变量的的混沌事件,整体考虑而不具体分析细节,从而排除了各种基本面消息的干扰,提供了一种更加客观理性的分析角度。
比如说一场比赛一方关键球员有伤病出战成疑,而另一方的战术被本方克制,到底哪一条消息权重更大一点呢?通常最终的判断是根据直觉,这仅仅是两个信息,如果正负双方更多的消息博弈,势必陷入更混乱的境地。
回到巴列卡诺的主场比赛。对手输球,有的对手有伤病,有的对手被判罚了点球,有的是自己状态不好(巴萨),有的对手归咎于巴列卡诺无比接近的看台导致打边路战术下底传中战术打不出来······这么多原因,到底哪一条是决定性的呢?
在这个模型假设下,我们认为各种原因共同构成了巴列卡诺的主场优势,并且将持续下去。单一变量的变化,无法直接影响混沌事件的结果。
回答:人是过去的集合,球队也是。面对复杂的基本面消息,与其凭直觉判断权重,不如化繁为简,在球员教练战术等决定性因素基本无颠覆性改变的情况下,相信球队会延续过去20场的平均水平。
巴列卡诺的主场,看台与边线底线最近处只有一米多,球员一不小心就冲进观众人群中
问题3:跟其他分析方式的比较如何?
其实官方以及各个机构开出赔率的计算方式跟本模型有相近的部分。基本面分析有时候更加直观更加立竿见影,只是不是每个人都接触到全面的消息更不用说再去衡量消息的权重了。本模型干脆就直接绕过这一部分,反而得到了更高的预测成功率。
值得一提的是那种根据赔率变化分析的预测方式,个人认为不足取。这种方式建立在阴谋论的基础上——机构可以操控每一场比赛并实时调整赔率。每一场比赛,显然是不太现实的。如果不是,这个方法只是无限逼近机构的预测结果,而足球是圆的,只是逼近了一个二手数据。当然,虽然做不到操作每一场,个别关键场次还是可能的。这种方法这时候就派上用场了。还是有很大的局限性。
个人不是很喜欢阴谋论的观点,但纵使是客观存在,本模型也可以视为一个混沌过程常规变量,毕竟一直存在嘛
问题4:基本面消息到底考不考虑?
数据的模型逻辑和计算方式是相对客观的,要排除各种基本面消息的干扰、不理智的直觉,原则上是不考虑的。但上文提到“颠覆性的变化”,还是有一定权重的,比如说切尔西打密集防守上卢卡库还是维尔纳区别还是挺大的,比如说曼联打传控足球和防守反击也是判若两队。每天的数据可以作为参考,跟基本面消息不冲突,可以跟根据个人口味酌情结合~
求关注