前段时间,豆瓣因为电视剧“超前点评”的现象再次受到公众关注。
豆瓣也非常快速地进行了回应,在官方微博公布了某电视剧疑似控评的处置结果:共清理五星评分 12366 条,一星评分 6610 条。
豆瓣评分的科学性和公允性一直以来备受关注。
2015 年,阿北曾发长文《豆瓣电影评分八问》解释了豆瓣评分原则,文中也特意提及,“豆瓣水军是有的,但是很难刷动,因为正常打分的观众实在太多了。”
事实上,评价与评分系统是一套逻辑严密的运转体系,首先做的是将“无法量化”的体验感受通过量化方式来呈现,将用户评价数据化和可视化,直观给到其他用户做决策参考。
在这过程中,还涉及多种影响,比如开头提到“水军控评”等杂音,依赖反作弊机制的对抗与治理,由此构成了一个初步的评价评分运转框架。
借此,运营社盘点了国内外几个著名的评价评分系统,看看这些系统都是如何运转,对用户的价值又如何,又是如何保障公允性和科学性。
为了深扒一下各平台的评分系统,运营社选择了来自国内外、不同领域的产品所携带的评分机制进行分析。它们分别是:影视评价领域的豆瓣和烂番茄、游戏领域的 STEAM、电子商务平台亚马逊和所属生活服务领域的大众点评。豆瓣电影做评分系统的主旨和原则是,“尽力还原大众对一部电影的「平均看法」”。为了实现这个目标,豆瓣的评分系统主要有以下三个特点:五星制是目前市场上大部分评分系统都使用的机制,它保证了用户在评分时,不会因为选项太多而无从下手,也不会因为选项太少而无法准确表达。豆瓣的创始人兼 CEO @阿北 曾对此做过详细的解释:如果一部电影有 42 万用户打分,豆瓣的打分程序会自动将这 42 万个“一到五星”兑换成“零到十分”,将其加起来除以 42 万,就得到了豆瓣评分。值得注意的是,在这个评分过程中没有人工审核,也没有编辑干预。每过若干分钟,程序会自动重跑一遍,把最新打分的人的意见包括进来。
这样一来,在豆瓣,每一个人都会影响整体评分。所以,豆瓣也被称为「大众评审团」。但是,由于用户可以修改自己给过的评分,因此评分回升或者评分骤降等“异常行为”也时有发生。一方面,豆瓣会自动识别并剔除「非正常打分」,所谓「非正常打分」包括营销刷分、明星粉丝刷分以及「豆瓣铁杆用户为“捍卫评分公正”进行的刷分」。以上这些刷分行为,一旦被豆瓣识别,其评分将会被剔除统计,其账号也会被系统冻结。另一方面,豆瓣采用「算法+人工」的方式剔除与影片无关,甚至涉及人身攻击的内容。“反刷分早已经是豆瓣电影日常工作的一部分,不少同事借助更多的程序一直默默在做。 ”
通过以上三点,豆瓣电影在算法优化中坚持评分中立原则,保障了整套系统独立、健康运转,也使得豆瓣目前仍然是中国互联网书影音领域中具有公信力和参考价值的平台,以客观性影响着用户的观影选择。烂番茄(ROTTEN TOMATOES)是美国一个影视评分网站,其在美国的影响力,相当于国内的豆瓣。首先,烂番茄衡量作品优劣,不是像豆瓣那样打分,而是通过“番茄的新鲜指数”表现。用户的评价选项只有两个,要么是鲜红的番茄(fresh),要么是腐烂的绿番茄(rotten)。平台会根据用户的好评率,决定“番茄的新鲜指数”,也就是作品是否优秀。“烂(Rotten)” ,意味着这部影片好评率低于 60% ;“新鲜(Fresh) ”,意味着这部影片有 60-100% 的好评;“绝对新鲜(Certified fresh)”,意味着这部影片有 80 条以上的评分,且其中的 70% 及以上是好评,且 5 个或以上评论来自顶级影评人。
其次,烂番茄对影评人有严格的身份限制。
为了保证影片评价的专业性,烂番茄的打分权只控制在 3000 个左右专业影评人(被官方认证的影评人或机构)手中。普通用户,则只能通过打分影响一部影片的“爆米花值” Audience Score(下图爆米花旁边的分数)。虽然这套体系在尽量照顾评论人数和专业影评质量的协调性,但是过于极端的评价机制也引起了不小的争论。很多专业影评人表示,单调的“新鲜”和“不新鲜”只能代表第一观感,但是很难体现他们对影片更为细腻的评审。于是,烂番茄推出了 0-10 分制的打分机制(平均分)。这样一来,用户在查阅“番茄新鲜指数”的同时,也能参考平均分得到更为细腻的质量分析。不少用户表示,“新鲜指数”决定了自己是否会观看该部电影,但是“最终得分”决定了自己先看哪一部电影。比如《极盗车神》和《敦刻尔克》的烂番茄新鲜指数差不多,但是《极盗车神》打分只有 8 分,落后于《敦刻尔克》的 8.7 分。STEAM 是一家游戏平台公司,其评分系统采取的是「两级制度」,即用户评分,只有「推荐」和「不推荐」两个选项。这种评分体系虽然简单,但得出的结论并非绝对中肯,缺乏中立的评价。一款游戏,不可能十全十美。所以在这种评价机制下,运营社发现,“推荐评论”中,会有不少“认为游戏很多缺点,但值得一试”的评论。而在“不推荐评论”中,也会有很多“游戏是好游戏,但是别玩”的主观评论。同时,STEAM 会根据该游戏下用户的推荐比例,得出一个「综合评价」,共分为六种:好评如潮、特别好评、多半好评、褒贬不一、多半差评、差评如潮。
比方说,推荐比率在 90% 以上,且评论数达到一定数量就可以被算为「好评如潮」,以此类推。但实际上,在好评如潮的标签下,很多游戏的质量并不统一,有一定程度上的质量参差。这些质量参差在其他平台上,打分差异可能会很明显,但在 STEAM 上,便被“一视同仁”了起来。所以,STEAM 评分一般有失公允,很难作为游戏好坏的客观评价,只能代表玩家对一款游戏的喜好。而 STEAM 不修改此机制,主要原因在于它是卖游戏的平台,而不是评测媒体。STEAM 只需要把游戏的最终评价告诉玩家,玩家能从推荐与不推荐的评价中了解到该游戏的优劣,从而决策自己的消费即可。用户不需要感知游戏质量的精细区别,都是“好评如潮”或“特别好评”,反而能降低用户的决策门槛,从而促进用户消费。亚马逊这类电商平台,设计评分系统的目的和 STEAM 这类游戏公司有些类似,都是在购物平台上显示评分,帮助用户做购物决策,从而促进消费。所以,一套评分系统是否能准确反映顾客对于商品的真实体验尤为重要。亚马逊的评价管理体系中,有 Feedback 和 Review 两类评分,两者相互独立但又互相影响。Feedback,是客户针对购买的订单做出的评价,也就是评价主体必须客户购买的产品,主要针对产品品质、服务水平、发货时效和货品描述等维度,影响的是卖家账号层面以及店铺ODR指标的变化,可以类比淘宝店铺评分体系。Review,主要是针对商品的评价和打分,可以翻译成“留评”,亚马逊平台用户都可以对商品做出评价。本文讨论的主要是 Review,即亚马逊商品页的评价评分体系,主要集中在这三个方面。在用户打分环节,亚马逊也采用了 5 分制打分法,所以不少用户以为商品最后的星级评分只是简单地算了一下平均数。其实不然,根据亚马逊官方给出的资料,亚马逊会给不同用户的星级评分赋予权重。哪些用户的评分权重更高,哪些用户的评分权重更低呢?亚马逊设计了三个维度来评判:首先,购买过该商品的用户,会比没有购买过该商品的用户权重高;通过上述三个维度,亚马逊给不同用户的评分赋予了不一样的权重,最终得出了加权平均数。亚马逊想通过打造多重评论的形式,建立高质量的评论区,帮助用户做消费决策。在亚马逊的商品详情页,用户会看到三种不同的商品评论形式:第一种,没有文字的星级打分,也就是常见的评分分布柱状图,方便用户了解商品评分情况。第二种,是带有星级打分和文字(及图片)的买家商品评论,也就是“买家秀”。第三种,则是最为特殊的 Vine 评论,类似“新品 0 元试用评论”,只有参加了亚马逊的“Vine计划”的用户,其评论后面才会出现「Vine」的标志。而每个商品最多只能有 30 个 Vine 评论。第三,为了防止卖家刷分、造假,亚马逊在设计完上述评分机制后,还有一套严格的“防作弊系统”。例如,评论有门槛,如果用户想进行评论,必须在过去 12 个月内用有效的信用卡或借记卡在亚马逊上消费至少 50 美元。亚马逊官方也曾多次表态对评论违规行为实行“零容忍”政策,如果发现发现卖家有任何试图操控买家评论的行为,亚马逊会立即采取措施:立即永久撤销卖家在亚马逊上的销售权限,包括扣留资金;移除商品的所有评论,并且阻止商品日后收到评论或评级;对卖家采取法律行动,包括诉讼和移交民事和刑事执法机构;
可以看出,亚马逊在评论质量内容考核方面下了功夫,这个也贴切亚马逊网站的初衷,为消费者打造高质量站内评论区,引领消费者做出正确的消费抉择。大众点评是全球最早的独立第三方消费评价网站,现如今,也是中国消费者在本地生活领域重要的评价参考体系。作为一个本地生活信息及交易平台,大众点评星级评分系统在特定类目已开始试点「10 条精选评价」计算星级。
10 条精选评价:特定类目上架,精选评价达到 10 条后,平台才开始计算星级。
通过查询,运营社发现大众点评对精选评价也做了严格的审核准入:a. 通过审核,平台会对每条评价进行审核,评价发布时间的次日 24 点前可审核完成,广告、灌水、重复、违规、虚假等内容无法通过审核;并且不定期对精选评级进行回扫审核,不符合要求的会取消展示。b. 评价字数不少于 15 字,能够有效传递消费体验。
与其他平台的五星制不同,大众点评上,用户除了需要对商家做一个总体星级评分,还可以从细分维度进行打分。以餐饮领域为例,大众点评设计的是“口味”、“环境”和“服务”三个维度,以更好地还原线下餐饮服务的全貌。在评分规则上,大众点评商户星级评分不是简单的算术平均,而是综合近期众多用户的“总体评价”,在没有人工干预的情况下,完全根据数据模型自动评定而出。特别的是,星级反馈的不是绝对的评分,而是商户在同类目下的相对水平。在反作弊机制上,大众点评也建立了相应的应对机制 ,采用了「算法 + 人工」的双重审核机制。大众点评会根据不同的评价场景,定期迭代和优化算法,并结合人工审核监督,确保平台上展示的评价能够反映用户真实体验后的感受。例如,借助风控系统,识别和过滤评价内容。只有通过「过滤机制」的评价,才会在精选评价页面展示。这一切,都是为了可以帮助用户筛选、对比商户,从多维度匹配到符合消费者要求的商户。通过拆解五个平台的评分系统,运营社发现,每个平台的机制、算法、门槛等都有很大的差异:
接下来,运营社将从「真实性」和「有用性」两个维度,对各平台的评分机制进行进一步分析,判断它们的优劣势。真实性指的是,评分能否“客观反映”某个产品或服务的真实评价。与之对应的是,刷量作弊、样本少、情绪化打分等情况导致的「伪真实评价」。基于这个前提,「评分系统」的真实性主要受以下三个维度影响:算法越简单,评分越容易被外部因素(刷评分、情绪化打分)所影响,真实性则越差。比如,如果没有反作弊机制的辅助,豆瓣的平均值算法很难处理外部因素带来的影响。假如有大量刷评分的操作出现,评分就会受到较大影响,甚至出现 C型评分(如下图,分数分布两极化),评分区受到“粉”和“黑”的强烈冲击:对比之下,尽管也是依托大众的评价,算法维度多元的亚马逊和大众点评,则有多重机制可以预防和及时修正打分。以大众点评为例,其星级计算逻辑不是简单计算打分,还会考虑到评价的诚信度(体验后的真实评价才会纳入计算)、时间(近期新提交的评价更重要)、质量(评价包含更多真实有用的信息更具有参考性)、数量(其他因素相同,评价数相对更多的商户更有机会获得高星)。2021 年 2 月,大众点评宣布对商户星级计算规则进行优化。
为使商户星级更如实、客观地反映用户的满意度,精选评价达到 10 条后才计算星级,同时星级计算将更加注重用户发布评价的真实性和对其它用户的帮助。
比如说,大众点评的星级也并不是简单的用户评价得分,而是反馈的商户在同类目下的相对水平。再比如说,目前,大众点评的星级每天会根据商户 4 天前新增的评价更新计算,这个时间段预留的是平台对评价的审核。同样的,亚马逊在评论质量内容考核、评论权重上也下了功夫。所以总的来说,相比于算法单薄的豆瓣和烂番茄,大众点评和亚马逊的算法,可以保障评价体系呈现更加真实的情况。一般来说,门槛的提高,反而过滤了普通用户的发声机会。这一点可以类比一些选秀综艺,当只有所谓的“专家评委”时,最终评选的结果对于普通用户来说,是很难有信服力的。就像烂番茄,普通用户只能通过“爆米花”来发表自己的看法,但影响排名的重要因素“烂番茄新鲜指数”,被掌握在专业人士手中,而专业人士的口味在某种意义上讲是“有偏差”的。所以,烂番茄相对比其他平台,评分机制更具备专业性,但真实性反而有所降低。首先需明确的是,任何一个机制的发展都无法彻底消除作弊因素,这是一个共生共存长期对抗的过程。评分系统的反作弊机制越强、力度越大,供需两侧违规行为的处置越强,那评分系统的真实性越高。目前平台主要通过两个维度来实现“反作弊”:一方面是从机制和算法上实现反作弊;另一方面是通过加大对违规用户和商户的处置,来净化平台氛围。在机制和算法层面,烂番茄、STEAM、亚马逊都是通过“设置门槛”来实现反作弊,豆瓣则是通过“剔除不正常打分”实现反作弊,而大众点评通过风控系统+人工审核,提前识别和过滤评价内容,只有通过过滤机制的评价,才会在精选评价页面展示。在违规行为处理层面,豆瓣和烂番茄比较难对“影片”进行处罚,而亚马逊和大众点评,则可以直接对好评的受益方——商户进行处罚,不仅有平台内部的处罚,还有联动监管部门的打击。根据运营社了解,亚马逊对违规商家的打击力度非常大。今年 9 月,亚马逊方面表示,在过去的 5 个月,亚马逊关闭了约 600 个中国品牌的销售权限,其中涉及这些品牌的约 3000 个卖家账号。据了解,卖家被封主要原因是刷单,违反了亚马逊政策。目前国内各个部门到互联网企业,对于刷单炒信的态度也是非常坚决。上周,中央网信办发文表示,将在全国范围内开展为期2个月的“清朗·打击流量造假、黑公关、网络水军”专项行动。此前,大众点评就在加大了对于刷单炒信的治理:对违规刷评价的商户进行“星级隐藏”、“排序降权”、“商户页公示”等,违规用户也会涉及“等级降级”、“撤销 VIP ”、“禁发评价、笔记、图片、视频等内容”等多项处理措施。
据公开数据显示,2021 年 1-5 月,大众点评处罚“刷好评”用户账号 5 万个,处罚“刷单”“刷评”商户 1 万余家,协同执法机关打击 29 个非法刷单网络灰黑产团伙。对此,在真实性的维度下,5 大平台的评分系统评价如下:在本文开头提到:评分系统存在的价值是将“隐性”的东西“显性化”,也就是将用户评价数据化,并可视化,给到其他用户做参考。所以,评分系统对于用户是否有用、能否帮助用户解决问题,是评判系统是否优秀的重要因素。在产品或服务本身会变化的情况下,评分的时效性越强,对用户越有实质性的帮助。比如,当用户想寻找饭店,但搜索出来的是商家 2 - 3 年前的评分和评论,很可能并不能反映商家现在的水平,这就会给用户带来困扰。相比之下,影片、游戏、商品相对来说是比较稳定的,这些产品仅需在上线初期,能够比较快地更新评分,给用户足够的信息即可。而像本地生活这样场景,商家服务和产品的稳定性相对难保证,大众点评及时更新评价就显得尤为重要。大众点评的评分,每天会根据商户 4 天前新增的评价更新计算,就更好地保证了评价的时效性。榜单也是评分系统很重要的产品之一,可以快速帮助用户找到所需要的产品或服务。例如,豆瓣的 TOP 250 榜单,可以帮助“电影荒”的用户解决找不到电影看的难题。在榜单层面,可以说是维度越细,越能满足用户“发现”的需求。大众点评的「榜单」在这一点上就做得很有用户思维,不仅吃住玩多个榜单,光“吃”就有菜系划分、区域划分及不同类型榜单的划分。比如日常想外出吃点特色的,可以看「必吃榜」;对品质有要求,可以看「黑珍珠」榜单;单纯对口味有追求,可以看「口味榜」等等,全方位满足用户需求。为了更进一步提升评价的有用性,部分平台还会推出一些特殊机制。比如,亚马逊的“是否有帮助机制”,让用户对评论进行投票表决“是否有帮助”。如下图,顾客在阅读完该评论后,就可以投票表决此评论是否有帮助。最终评论会显示“觉得有帮助”的人数,从而增加该评论的可信度。与之相似的是,STEAM 也有相关功能,通过其他用户判断评论是否有价值:比如说,大众点评除了总体评分,还有“口味”、“环境”和“服务”三个维度的评分,用户可以结合自己的偏好,做出最优选。再比如说,在精选评价下,平台会根据用户评价提炼不同的标签词。如此一来,用户可以选择自己最关心的标签进一步查看评论,快速了解关键信息。了解完这些评分系统后,不难发现,做一个既真实又有用的评分系统,是相当困难的事情。
评分系统是一个复杂的工程,背后需要有大量的技术、风控、人力投入,但最核心也是最难得的是保持中立与独立,这样才能保障真实、有用的评分结果,最终用户才能从中获益,只种草适合的东西、只看好的电影。这些冰山下的努力不会被看见,但却扮演着非常重要的角色。当一个评分系统存在后,每一个评分人都成为了评价评分体系的建设者,因为每一次评分,其实都在默默改善着评分环境,让世界看事物的尺度更加明晰。真理越辩越明,评价评分体系亦是如此。
本文系作者授权首席营销官发表,转载请联系该作者
最热评论