网站建设 网络推广 网站营销 软件开发 案例展示 新闻资讯 关于我们 联系我们
合肥拓野网络公司新闻资讯
机器学习预测世界杯:巴西夺冠
来源:合肥拓野网络公司 | 发布日期:2018-06-14 次 | 人气:2039
 合肥拓野网络公司

2018年俄罗斯世界杯开打,首场比赛是东道主俄罗斯对阵沙特阿拉伯,将于6月14日拉开序幕。


每届世界杯最受关注的当属决赛,上届2014年巴西世界杯,东道主巴西队意外爆冷,只获得第四名,无缘决赛。今年的世界杯,不少机构/研究人员给出预测:德国将和巴西争夺冠军,并且,巴西队夺冠的概率更大些。


综合各种预测和民意调查,冠军几乎肯定在巴西、德国和阿根廷之间展开,虽然强强争锋喜闻乐见,但似乎也少了些惊喜。


机器学习和大数据的方法正越来越多地被用在比赛结果预测上,不仅是世界杯,也不仅是结果,球队组成、战术选择和球员训练都已经开始见到机器学习的身影。对于球迷和观众而言,人工智能也将展开一种全新的参与/观看体育赛事的体验。


机器学习预测结果:巴西获得冠军


肯尼亚的投资银行Genghis Capital Investment Bank的投资银行分析师Gerald Muriuki,日前在Medium上公布了他使用机器学习预测FIFA 2018的结果——巴西将赢得冠军。


这一结果跟微软的AI和数据科学专家Sorin Peste的预测结果一致。


实际上,预测世界杯冠军是一个典型的机器学习问题,你首先预测每场比赛的获胜者,接着再预测小组赛、半决赛和决赛的冠军。在这个过程中,你需要进行数据整合、特征建模和结果预测。因此,很多机器学习或数据科学家,都做过类似的项目。


Muriuki和Peste两个人都是根据足球比赛的历史数据,建立机器学习模型,模拟比赛,并预测这些比赛的结果。下面我们分别来看看。


使用逻辑回归进行预测


Muriuki使用了两个来自Kaggle的数据集,包含了从1872年到2017年国际足球比赛的结果。他先分析了两个数据集,做了一些特征工程,选择跟2018年世界杯最相关的特征进行预测,再足控了一些数据增强。


在模型的选择上,Muriuki用的是逻辑回归,一种分类器算法。逻辑回归通过使用逻辑函数预估概率,从而衡量分类因变量和一个或多个自变量之间的关系。简单说,给定一组相关的数据后,逻辑回归能够预测结果(在世界杯的情况下,就是预测是输还是赢)。


这是他的模型预测最初几场比赛的结果:俄罗斯vs沙特,俄罗斯胜利;乌拉圭vs埃及,乌拉圭胜利;伊朗vs摩洛哥,平局。4天以后就可以验证这个结果是对还是错了。




16强的结果是这样的:




四分之一决赛将在葡萄牙vs巴西,以及德国vs阿根廷之间展开。




最终巴西vs德国,巴西获胜。




使用随机森林进行预测


另一方面,微软的AI和数据科学专家Sorin Peste的预测过程则更加完善。在数据的选择上,除了历年世界杯结果,Peste还使用了欧洲杯、奥运会等大型比赛的数据,以及这些比赛的胜率分布。




此外,Peste还考虑了比赛的地址,也即是在主场、客场还是在双方都无关的中立场所,以及比赛是否“friendly”,在踢friendly比赛时,目的不是为了赢球,而是为了观察对手的球员和策略。


在模型的选择上,Peste用的是随机森林(深度500),一种根据呈现给它的特征生成多个决策树的算法,并且每个单独的树对每个新输入向量的结果“投票”。随机森林的速度快,相当准确,可以对泛化误差进行无偏估计,因此不需要交叉验证。


下图展示了迭代1000次后的结果,巴西获胜,阿根廷第二。




统计的方法:德国战车险胜巴西


当然,除了机器学习,还有更多预测是使用大数据方法。KDnuggets上一位狂热球迷用统计的方法,预测德国队会夺冠。他的操作步骤如下:


收集信息:


国际足联世界排名:这是所有211支国家足球队的排名系统。使用积分系统,积分是基于所有FIFA认可的国际比赛的结果。然而,这并不是最好的系统,而且有很多缺点。


Elo评级:该系统最初是为国际象棋联合会FIDE开发的,目的是给棋手打分。它的复杂矩阵根据比赛的类型分配点数,并考虑到双方的净胜球差异。它和国际足联的主要不同之处在于,它也统计了友谊赛的数量。


TransferMarkt team value:这个总部位于德国的网站提供了关于足球各个方面的信息,包括每个知名球员的估计市值。他们列出了参与国的名单和他们的团队价值。


投注赔率:使用投注比较网站OddsChecker,采用每个国家最慷慨的赔率。


TransferMarkt的数字是欧元,而FIFA和Elo有他们自己的评级系统,投注赔率是分数。作者将每一个系统都标准化,使它们具有可比性。在统计中,标准分数(也称为z分数/值,正常分数或标准化值)是数值与平均值不同的标准偏差数。




2018年世界杯,四个流行的预测来源




KDnuggets预测的z分数


如果KDnuggets的预测是正确的,那么世界杯小组赛的结果会是下面这样的:




研究结果引出了一些有趣的结论:


德国排名第一,但仅略高于巴西。紧随其后的是西班牙和法国。


Elo排名系统和投注几率看起来最相似,都列出了相同的前五名(上面提到的四个球队和阿根廷)。


在整个体系中有一些鲜明的对比,其中最引人注目的是秘鲁在国际足联(FIFA)和Elo排名中z分数都排在第10位,而在TrasferMarkt的球队价值排名却在第30位。


民意调查:德国、巴西、阿根廷最受欢迎


除了KDnuggets上的预测,还有诸多世界杯赛前的其他预测:


《每日电讯报》对每支球队进行了广泛的分析,最后进行了一项投票,让读者预测冠军,投票结果如下:




此外,据中新网报道,俄罗斯彼尔姆国立研究大学学生维克多 扎科派洛建立了一个能预测2018年世界杯冠军的神经网络,神经网络综合各项参数进行分析计算后得出结论称,世界杯前三名将是德国队、巴西队和阿根廷队。


四年前,巴西在家门口以1:7输给了德国队,创下了自1920年0:6输给乌拉圭以来最大的世界杯输球记录,震惊全国人民。最终,德国队夺得了当年的世界杯冠军。


今年的俄罗斯世界杯,诸多机构预测巴西和德国将上演冠军大战。巴西能否一雪前耻,德国能否成功卫冕?我们拭目以待。

上一篇:广电总局:互联网电视不许直播2018世界杯!
下一篇:山东多地遭遇冰雹 西瓜被砸“开花”
热门资讯
(2020-06-24)2020端午节放假通知 (2018-12-21)移动端seo优化和排名技术怎么实现? (2019-01-11)网站站内优化是非常重要的一个环节,站内SEO优化中如何利用好... (2013-09-09)番茄花园作者被判三年半微软警告win7盗版 (2011-07-11)微软重拳打击番茄花园盗版 醉翁之意不在酒
推荐资讯
(2013-11-08)IBM宣布推开放Linux套装软件挑战Windows 7 (2014-06-12)阿里巴巴信用支付业务是否会冲击银行消费信贷? (2014-05-09)报告称六成IT家电企业使用CN域名 (2013-03-29)拓野网络指出错误的堆积关键词有哪些 (2013-03-26)“2009中国互联网市场年会”3月召开
电商解决方案-专业网络营销部署咨询-成功案例分享-个性定制服务咨询
网站建设
营销套餐 PC端 移动端 域名空间邮箱
网络推广
搜狗竞价 网站优化
网站营销
微信公众号 小程序 朋友圈推广
软件开发
定制软件 手机APP
案例展示
精品案例
网络快讯
公司新闻 行业资讯 媒体报道 网络知识
关于我们
公司简介 企业文化 团队风采 发展历程
联系我们
联系方式 人才招聘 问题反馈 付款方式
Copyright  ©  2008 - 2018  合肥拓野网络科技有限公司, All Rights Reserved 皖ICP备06009261号-4