电影评分算法(电影评分算法多)
这两天豆瓣、猫眼的"评分事件"闹得有点儿大,作为一家“科技媒体”的小编,自然是不掺和这些站队之类的麻烦事儿。所以蹭热点的方式非常淳朴——科普。因为电影评分这事儿当然不可能像体操评分那样“去掉一个最高分、丢掉一个最低分,然后总分除人数”那么简单粗暴,还得谈到“大数据”。
豆瓣的评分是把所有用户给出的 1~5 星换算成 1~10 分,然后将总分除以打分人数,就得到了豆瓣评分。这个评分不经审核,由程序定时生成。不过豆瓣也对“非正常评分”做了处理,不管是刷高分还是刷低分,都会屏蔽掉、不算在评分内。如何判断是否“非正常评论”,豆瓣目前并未公开(或许公开了规则就等于变相公开了刷分方法?),但根据豆瓣的说明,刷分已经是很难办成了。这也使得一些想干扰评分的电影制作方批评豆瓣的评分、质疑其公信力,制造豆瓣评分有问题的舆论。
时光网官方给出的算法说明
早些年时光网的 Slogan 是做“中国版的 IMDb”,但根据后来时光网在去社区化上做出的一系列改版,这个愿望大抵跟厕纸一起冲到马桶里,现在好像没谁再提了。时光网的评分最有意思的是最低可以打到 0.1 分,不过这需要特别的技巧:在分项里只给声音和画面各一颗星(最少要给两项打分才能提交)。
而国外最知名的 IMDb 的则不同,它使用的加权平均值。对于 TOP 250 的评分,它采用了贝叶斯统计算法:
WR, 加权得分(weighted Rating)。
R,该电影的用户投票的平均得分(Rating)。
v,该电影的投票人数(votes)。
m,排名前250名的电影的最低投票数。
C, 所有电影的平均得分
即先通过现有数据统计设定基准,设定平均评分、基础人数,在这个基准之上加入真实的用户评分,合起来得出 IMDb 的 TOP 250 最终得分。IMDb 的这种贝叶斯统计算法更多的像是平衡模型、而不是一个评分模型。这种平衡模型能为冷门影片提供一个补偿值,即便评分数少也能得到一个相对可靠的评分,而每一次新的投票都会使评分不断向该影片的真实投票结果靠近。
TOP 250 之外的排名算法 IMDb 目前并未公开,但我们可以通过现有的具体评分来了解一下:
《国家宝藏》、《肖申克的救赎》、《长城》的评分详情
除了算法之外,对于电影评分来说,把握好宣传的力度也很重要,过度宣传可能会拉低评分。一般来说,不依靠宣传吸引来看电影的人倾向于打高分,但人数较少;而被大规模的宣传吸引的人倾向于打低分,这类人数较多。这也是独立电影为什么有时候评分很高(只有少数粉丝来打分),而票房冠军有时候评分很低(把不会喜欢的人也宣传来了)的原因。所以高分和高票房的确会有一些冲突,只有真正广受欢迎的电影能化解这个冲突。
《盗梦空间》和《星际穿越》是近几年高票房、高评分的典型
豆瓣 CEO 阿北之前对评分算法表示“豆瓣在尽力还原普通观影大众对一部电影的平均看法,这个主旨过去十年没变过,将来也不想变”,他虽然也认为汇总专家意见也是件很有价值的服务,但这并不是豆瓣评分的宗旨(所以做卖票起家的猫眼做了基于电影业内人士的专业评分,虽然现在由于不可描述的原因已经取消了)。
也许就像阿北说的那样,想让片子评分高一点,只有拍好电影这一个能确定的方法。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com