谈谈数据科学(当我们聊起数据时)

【转载】《纸上篮球》序言:当我们聊起数据时,我们究竟是在聊什么

谈谈数据科学(当我们聊起数据时)(1)

写给喜欢说数据无用论的观众,希望引起一些深思

对于篮球的数据分析,大家经常听到这样一句话:“数据有它的局限性”。对此我们其实深表赞同。是的,即使我们计划在未来一段时间里,围绕篮球数据做抽丝剥茧的探讨和解读,却并不意味着我们非得扮演狂信徒的角色。

只不过在承认局限性这个大前提以后,我们还是希望把这句话做一些更细致的拆解。首先是大众眼中的篮球数据究竟是指什么?其次是面对局限性,我们究竟应该怎么做?

1891年奈史密斯发明了篮球运动,可以想见最初的数据栏里肯定有得分,否则比赛打完根本就不知道谁赢了。55年以后即1946-47赛季,NBA的前身BAA进入元年。根据美国的历史数据库显示,当时就有统计并且现在仍然可以查到数据包括:1.得分,2.助攻,3.投篮相关(含出手数、命中数以及命中率),4.罚球相关(含出手数、命中数以及命中率),5.犯规。

4年后也就是1950-51赛季,NBA开始统计篮板。1年后也就是1951-52赛季,NBA开始统计出场时间。22年后也就是1973-74赛季,NBA开始统计抢断、盖帽和失误(有网友提醒完整统计失误始于1977-78赛季,但BBR统计全联盟的平均数据及球队数据会更早一些),并且做了进攻篮板和防守篮板的拆分。

这里非常有趣的地方就来了,如果不算NBA创立之前的年份,相当于美国人大概花了27年时间,来完善面板数据(box score)以及其相应的场均数据的构成,然后就不再做任何主动性的大幅调整。期间1979-80赛季开始统计三分相关(含出手数、命中数以及命中率),更多是基于引入新规则后必须做的被动性调整。整个发展史大概是这样的:

谈谈数据科学(当我们聊起数据时)(2)

我的意思是,一个40年都没有更新的东西,就不应该被当成某种“完全形态”来看待,甚至于它没有局限性才很奇怪。看到这里你大概会问:既然如此,我不看它不就完了?专注于比赛本身不好吗?如果你只是想茶余饭后看看球消遣一番,当然可以。但如果你想对篮球或者NBA有更深的了解,甚至是相关从业者,面板数据由于它的普适性,就是会无时不刻影响着你。

就拿NBA来说,30个队1,230场常规赛没有哪个神仙可以有精力全部看完。最死忠的球迷会看完主队的82场比赛,但想了解对手信息仍然会优先通过面板数据。

这个世界也不存在看个几分钟球,就能洞窥某个球队和球员是什么水准的所谓“高手”,NBA的资深教练和球探都做不到。本-法尔克(1)曾在多支NBA球队有过球探经历,光是花在录像拉片和剪辑上的时间就不知凡几。然而他却承认,自己跑去执教高中联赛时“数据缺失导致信息量太少了”,“不清楚对面的中锋投篮到底什么水平”,“策略难做会影响球员执行”。

真的太矛盾了!一个最容易影响到人们观点的工具,偏偏又是一个数十年未更新极其落后的工具。这方面全世界的篮球人都太照本宣科了,仅仅因为篮球是美国人发明的,在统计面板数据时就被人牵在屁股后面走,别人统计什么我们也统计什么。比如可能已经是世界上影响力第二高的专业赛事男篮世界杯,我查询FIBA官网就没看出有什么创新之举。

大家或许会觉得,美国不仅仅是篮球的发明者,也是篮球的领先者,跟在他们屁股后面走有什么不对呢?难道我们还能关起门来搞发明创造,去做别人的老师不成?

但接下来的核心点就出现了:美国人不做面板数据的更新,并不是没有能力,而是认为没必要去做。他们同时花大量的时间精力来研究各种进阶数据(advanced stats)的算法和呈现,并且已经实实在在地影响到了比赛。

毫不夸张地讲,NBA的近15年,就是进阶数据分析在引领篮球发展的15年。数据分析不是某种派别,某个风格,不是“剑宗”和“气宗”之争;而是毫无疑义的“更加先进的生产力”,类似于现代军事与肉搏战白刃战的区别。

大家请不要误解,数据分析仍然不能解决篮球场上的所有问题,但它只要能帮助我们比单纯的“肉眼看球”,或者“肉眼结合面板数据看球”解决更多问题,就值得付出努力去研究它。

如果把“领悟篮球奥秘”比作一个进度条的话,美国人自己也在纳闷进度条走到80%以后如何更进一步,真的是道阻且长。但我们作为学生,可以暂时不一起去纠缠这最后的20%应该怎么完善,而是应该想想别人在前50%,前60%到底是怎么走的。

人家在“存异”之前,早就花了大量精力来“求同”。用霍林格(2)的话来说,“美国篮球分析已经摘下了树上位置最低的苹果”。我们应该自问的是自己究竟摘下了没有。如果答案暂时是否定的,这个苹果究竟是什么,应该如何去摘下它。

文章的最后我想再强调的是,就是千万不要对数据分析有妖魔化的预设,拿一个不存在的靶子来打毫无意义。进阶数据的研究,从来都没有也不该和“看录像”摆在冲突的,二选一的关系上,不是说你研究完数据就可以不用看比赛了。它更不是仅指某种建模后得出的简单粗暴的一体化数据。倘若面板数据是障人耳目的起点,一体化数据是某个只能不断逼近的终点,那么起点和终点之间的空白地带,散布着各种各样评价单项技能的数据,就是当下最值得我们研究的。

谈谈数据科学(当我们聊起数据时)(3)

对于学习先进经验,一个坏消息是,美国篮球其实已经过了分享氛围最好的时代了。各队花钱聘请分析师,基于利益考虑就不会做大量的信息交换,更别说我们来自不同的国家,说着不同的语言。

好消息则是,也有越来越多的业内人士意识到这个问题,而且美国篮球圈本来就很多人在“媒体人”和“队内分析师”两种角色里来回横移,也有助于我们更好地琢磨背后的思路。他们“桃李不言”,我们照样能够“下自成蹊”。

目前我的计划是这样,系列文章大概会分成几部分,先是球队数据分析,接着是球员数据分析,最后是单场比赛的分析。里头除了具体数据的简介和拆解,还会有不少涉及NBA历史的发展,各个位置的功能演变,以及数据对于实战的结合。本体连载是免费的,首发于微博“旋猫”,每天中午12点和晚上6点双更(工作日)或日更(周末)。注释:

1.本-法尔克:曾任76人和开拓者的球探,现cleaningtheglass的创始人,目前在对外呈现的数据量化方面最出色的分析师。

2.约翰-霍林格:曾供职于ESPN和灰熊管理层,现为The Athletic主笔,也是最早尝试撰写单个球员报告的媒体人。


结束语

数据的接纳也需要一个循序渐进的过程,十年前可能大家都不知道进攻效率和防守效率是什么,如今大家也都接受了。每一个数据都会有它的局限性,通过了解它的计算原理,便可以有效的减少不足,当只有得分这一数据时,这就对出手数少的人不理,所以增加了命中率,把得分的质和量结合起来看,但又发现,单看命中率对于外线投手来说是不公平的,三分的40命中率和两分完全是两个概念,所以有将命中率分区域划分或者引用了真实命中率等数据,这样的例子还有很多很多,希望通过原理的了解可以更好的运用数据吧。

某些人对于数据的嗤之以鼻确实难以苟同,对于数据的抗拒就像古代人对于科学的抗拒一样,我们追求数据绝不是否认直接观看比赛的重要性,而是作为一种必有的补充,因为从未有人能够完整的看完所有比赛,当然绝不是说看比赛是毫无必要的,这绝不是捧一踩一的问题。现代科学发展到如此地步,不少事情还是要亲身实践的,因为我们从来不能探究到所有的规律,预测所有的事情发生,而且篮球终归是个有概率运动,库里可能连铁10个三分,追梦也可以三分绝杀比赛,我们能做的只是不断的去接近篮球的真理,得到最优的结果。

数据分析和观看比赛从来不是对立的事情,静易墨,旋猫这些看重数据分析的NBA球评,往往看的比赛比普通球迷多数倍,并且不只是看热闹,而是有记录,有目的性的研究,结合数据分析。他们跟普通看热闹的球迷相比,认知度,努力程度,热情都不在一个频道,而正是这些认知甚少,却狂妄自大的球迷,往往会对着这些负责任的深度球评,丢下两句经典而无知的话“数据不能说明一切”,“多看球吧”;数据不能说明一切,这句话截止目前是对的,但成立的依据,并不是球盲们随口说说,而是这些认真负责的篮球数据分析者,对比比赛观感和数据反馈,最后发现某些数据失真而得出的,有依据支持的结论。数据虽然不能说明一切,但能说明大部分问题,那些连数据都不懂,也不会用的,那这些人又能说明什么呢?

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页