世界杯菠菜为何是数据噩梦
Mark Taylor在之前的一篇文章里解释了他的(包括冠军)方法,同时他也指出了使用这种方法的局限性。我将在本文中着重研究后者。我会在此讨论定量和定性方法的局限性。
你所用模型的结果是由你的使用过程所决定的
构建任何模型都是一个迭代过程,这个过程中包括测试和监控结果。之前一篇文章曾经谈到过这一点,文章建议将判断力和创造性元素作为任何建模过程中的重点。
测试和监控世界杯结果会受到很多限制,因为大赛每四年才举行一次。定量方法不是要获得完美的真实结果——这是一种通过数字来模拟或解释现实结果的创造性过程。
然而,任何定量模型都基于一系列假设和历史数据。世界杯的问题在于收集到的数据(哪怕是预选赛阶段的数据)有些过时。
假设我们使用球队历史表现的数据。预选赛阶段的数据意义不大,因为球队在接下来的比赛中会遇到实力不同的对手。例如,巴拿马可能在南美赛区中以微弱的优势打败美国而晋级,但是这支球队参加欧洲区预选赛的话有可能晋级吗?
数据的缺乏使得算法繁重的方法(这种方法相当多)不具备在每周都有比赛的普通足球联赛上的相同优势。
我并非想要暗示欧洲区预选赛的难度更高,而是想指出预选赛中的表现和小组赛阶段中的截然不同。此外,预选赛耗时超过两年,球队的表现在这么长的时间里可能会有高低波动。球员的实力也可能在这段时间内发生波动,还有可能受伤。
有一个方法是选择使用FIFA球队排名来调整这些波动,但是这些排名出了名地不切实际。比起这种方法,我认为FIFA 2018模拟的预测更为可靠。
一些高级模型尝试使用特定球员参数。这些模型常常极其复杂,预测结果有可能更准确。然而,球员的表现受到球队结构的影响,他们可能在所属俱乐部的打法中表现得无与伦比,却无法在自己国家队的打法中同样挥洒自如。
梅西本来就面临着在世界杯中如何表现的压力,而阿根廷队中没有巴塞队友的现状更加重了这一压力。尽管穆罕默德·萨拉赫在本赛季中绝对称得上是天纵英才,但是没有证据显示他在埃及队中也能发挥出类似的水平(虽然我个人希望这支球队会得到好成绩)。
出于同样的理由,采用之前世界杯中的球队特定数据(比如进球强度)会导致灾难性结果。球队在四年间变化极大,我们都见证过某些世界杯决赛圈球队或者冠军在接下来那届世界杯中表现得惨不忍睹。随着时间的推移,球队也有可能更换教练以及改变比赛风格。
定性方法为何也有局限性
历史上的传奇球队例子——比如1970年的巴西、1974年的荷兰(尽管他们不是冠军)和2010年的西班牙——也影响到了包括定性预测在内的其他方法。
几个月前,我和其他人合作发表了一篇学术论文《公众对于巴西在世界杯中的表现的(错误)理解》。在这篇论文中,我们评估了2014年世界杯中的巴西队赔率。为了省去你阅读整篇文章的时间,研究结果可以总结为“巴西队的优胜冠军赔率在赛后高于赛前”。
球队在四年间变化极大,我们都见证过某些世界杯决赛圈球队或者冠军在接下来那届世界杯中表现得惨不忍睹。
在我参与撰写的论文中,我们发现巴西在世界杯开赛前的夺冠机会为25%,但是他们打完喀麦隆并小组出线之后,夺冠机会却只剩下18%。他们在第一场淘汰赛开始时的夺冠机会高达27%。
事后看来,我们在上届世界杯中看到的巴西队不是上上届中的那支传奇球队。可是博彩玩家似乎仍旧成为了锚定偏见的牺牲者,过份地强调了第一印象。
巴西每打完一场比赛,这个偏见就遭遇一次挑战(因此赛后的赔率更高),但是在下场比赛开始之前就被忘光了。
还有一个因素可能会导致这些不准确。相关学术名词叫做“过度自信偏见”,但是让我们直奔主题——这就是自负。有许多体育博彩玩家(不论是成功还是不成功的)对于他们自身的能力都太过自信——这其中可能包括我自己。
事实上,我们都听到过(也许参与过)太多的解析讨论(当时说话人的口气极其肯定)——“莱斯特城不能赢得联赛冠军”、“切尔西拿到前四毫无疑问”以及“尤文图斯会成为欧冠杯的冠军”等众多令人心烦的论断。这些就是这种过度自信偏见的真实证据。
世界杯问题是否有解决之道?
如果定量方法有局限性,而定性方法又有偏见,这是否意味着不存在可以提供适当的世界杯预测的科学方法?
世界杯的问题在于收集到的数据(哪怕是预选赛阶段的数据)有些过时。
不,这其实可能是种优势。数据的缺乏使得算法繁重的方法(这种方法相当多)不具备在每周都有比赛的普通足球联赛上的相同优势。另外,世界杯吸引了大量更偏重娱乐性和更情绪化的博彩玩家。
任何预测的目标都是相对的而非绝对的准确。例如,在office预测池中(你可以随意使用上的免费Excel文件),我建议可以有一点创造性,但不能太多。
如果你意识到一半的世界杯博彩参与者都会把德国选为冠军,那么你最好不要跟风(这并不是鼓励你预测巴拿马夺冠)。当你尝试打败市场时,应该多多考虑不同的“如果”。如果你使用的是定性模型,那么不要只使用一套参数来得出结果,而应该测试其对这些波动的敏感度。
选择Pinnacle(平博),获取最佳和。