本帖最后由 oh!touchdown! 于 2013-10-22 19:56 编辑
在以前学《多元统计》的时候,我完成的一篇课程论文,试想关于四分卫评分系统的修改,鉴于当今的四分卫评分系统并不能够全方位的反映出四分卫的真实水平,所以我做了的一小步改进。 由于不是数学相关专业,写的很拙劣,很多东西只是当成了一个想法,没有付诸实践,写完后似乎也觉得好像没有什么创新的地方,欢迎大家集思广益并帮助。
前言神马略过直接正文:
正文: 一、原四分卫效率评分计算公式
Don Weiss把每一名四分卫的各项数据整合到一起,这些数据包括以下五项: ATT = Number of passing attempts(传球总次数) COMP = Number of completions(传球完成次数) YARDS = Passing yards(传球码数) TD = Touchdown passes(传球达阵次数) INT = Interceptions(传球被抄截次数) 而Passer Rating的计算公式为:
限制条件为 (即当a、b、c、d四项中任意一项小于0或大于2.375时,按照0或2.375带入计算)
比如上赛季passer rating评分第一的绿湾包装工队四分卫Aaron Rodgers,传球总次数552次,传球成功次数371次,传球总码数4295码,达阵次数39次,被抄截数8次。 Passer rating为: [(371/552-0.3)*5+(4295/552-3)*0.25+39/552*20+2.375-8/552*25]/6*100=108.0
二、数据的预处理 我引入上个赛季2012赛季传球码数(保证足够的样本量)前32名四分卫的数据:址http://www.nfl.com/stats/categorystats?tabSeq=0&statisticCategory=PASSING&conference=null&season=2012&seasonType=REG&d-447263-s=PASSING_YARDS&d-447263-o=2&d-447263-n=1(或参见附原始数据记录表) 首先我们先对每一项数据代表的含义进行解释: Pct:传球成功率,等于传球成功次数除以传球总次数(Comp/Att) 1st:第一档进攻次数(美式橄榄球中要求4档进攻机会至少向前推进10码,每成功一次便可获得新的4档进攻机会) 1st%:一档率,等于第一档进攻次数除以传球总次数(1st/Att) Att/G:每场球平均传球总次数 Yds/G:每场球平均传球总码数 Sck:被擒杀数(sack),指四分卫未传出球就被防守球员擒抱,造成丢失码数 Lng:最长传球码数 20+:传球码数大于20码次数 40+:传球码数大于40码次数 TD%:达阵率 Int%:被抄截率
显而易见,数据表格中的很多变量如传球总次数、传球成功次数与传球成功率之间,存在着某种函数关系,因此并不是每个变量都是相互独立的,于是我们要提取数据的主成分,先进行降维。
三、因子分析
第一步:数据标准化,我们对每一个变量描述统计分析处理,让不同量纲的参数统一量纲,原始记录以及标准化的量纲数据都在附表QB Rating中
第二步:样本的KMO以及Bartlett检验 可以看出KMO值为0.836而Bartlett值<0.01还算良好,可以进行因子分析
第三步:得到累计贡献率: 可见,取四项主成分累计贡献率达到85.820%,可以进行解释。
第四步:主成分分析第i列的每个元素分别除以第i个特征根的平方根,得到方差最大正交旋转后的因子载荷矩阵:(将标准差旋转为1) 由此可以把得到的四个主成分进行定义: 第一项(数量因子):第一个成分取绝对值0.638以上,包括四分卫传球成功次数(Comp)、传球总次数(Att)、每场传球次数(Att/G)、传球总码数(Yds)、每场传球码数(Yds/G)达阵次数(TD)、被抄截次数(Int)、第一档进攻次数(1st)、20码以上传球次数(Twenty+),这个因子描述的是四分卫对球队累计的贡献 第二项(效率因子):第二个成分取绝对值0.809以上,包括传球成功率(Pct)、传球均码(Avg)、第一档成功率(1st%)、达阵率(TD%)、被抄截率(Int%),这个因子描述的是四分卫传球的效率,参考Don Weiss的四分卫评分公式,这个评分系统评价的就是四分卫的传球效率因子 第三项(偶然因子):第三个成分绝对值0.642以上,包括最长传球距离(Long)、以及40码以上传球次数(Forty+),这个因子描述的是四分卫创造精彩表现的能力,还有一击制胜的能力。相比较20码以上传球次数以及40码以上传球次数分别属于两个不同的因子,可见20码传球是量贡献,而40码传球是质贡献 第四项(稳定因子):只有被擒杀数(sack)一项,表示四分卫控制失误的能力 要评价一名四分卫的“效率”,显然要用到第二个主成分,再去除无关变量,即Rating=0.879*ZPct+0.824*ZAvg+0.880*Z1st%+0.827*TD%-0.809*Int%(Z开头表示使用标准化后的变量)
四、协方差检验 每个数据的Pearson数绝对值大于0.5,显著性概率<0.01,推翻所有显著性为0的概率,也就是说至少有一组变量为显著相关因此我们可以说我们得到的这个公式有实际应用性
五、与Don Weiss公式比较
我们可以得到下表:
六、结语 我经过统计分析得到的公式所得到的四分卫评价结果基本与Don Weiss相同,这也可以从一个侧面反映了Don Weiss公式对于评价一名四分卫效率高低的科学性。希望今后可以有更专业更全面的统计学分析可以求得一套对四分卫效率更加精确的公式,从而造福球迷,造福这项运动。
感想: 1、我真的不知道是不是Don Weiss这个人计算出的公式,是wiki出来的,但是实际公式和我在莫争春的《美式橄榄球入门宝典》首次见到的公式是相通的 2、我觉得还有很多因素没有考虑进去,比如3rd%、clutch moment等,优点是“似乎”评价更全面了,而且我似乎找到了四分卫“90分”的及格分数,在我的公式里为0,缺点也很明显,首先是比原公式只加了一项,其次就是公示的数据为统一量纲后的标准化数据,基本没有实用性
|