大众点评陷“好评泛滥”危机:智能工具时代如何重建信任?
图片来源:AI生成

当消费者习惯用评价决定去哪吃饭时,大众点评却陷入“好评泛滥”的争议。智能工具让刷评变得轻而易举,而平台数据失真正在削弱公信力。美团副总裁陶雪璇的反思,不仅是对一次舆论危机的回应,更是对整个评价行业灵魂拷问的开始。

信任崩塌:大众点评正在为“好评泛滥”付出代价

在大众点评必吃榜10周年盛典上,美团副总裁、点评事业部总经理陶雪璇直面外界最尖锐的质疑——为什么平台上“好评泛滥”却数据失真?她坦言团队已经进行了“深刻反思”,并反思“在评价的真实、全面、丰富三个维度上,优先级是否出了问题,是否对商家店内邀评的约束和治理有所放松”。

这并非大众点评第一次陷入信任危机。去年7月,央视财经曝光了大众点评上的“好评套路”:探店不必进店,商家直接提供图片和文案,用户只需发布即可获得报酬。这种“云探店”行为本质上是将用户变为刷单工具,而平台审核机制存在明显漏洞。

从商业逻辑看,大众点评的困境源于两个对立目标的冲突:一方面需要海量评价数据来维持活跃度和商业变现,另一方面又必须保证每条评价的真实性。当智能工具能批量生成评价文案、甚至用AI画图生成配图时,平台的审核成本呈指数级上升。陶雪璇承认,过去团队在“全面”和“丰富”上投入过多,而忽略了最根本的“真实”。

这种优先级错位并非孤例。在生活服务领域,几乎所有平台都面临“数据注水”的压力。大众点评作为行业标杆,其评价体系的公信力一旦动摇,会直接影响消费者的决策质量,进而拖累整个生活服务电商的生态健康。

大众点评陷“好评泛滥”危机:智能工具时代如何重建信任?配图
图片来源:AI生成

“机器评价”的乱象:当智能工具成为刷分利器

“好评泛滥”的背后,是黑产利用AI技术进行规模化造假。传统刷单需要雇佣真人操作,成本高、效率低;而借助大语言模型和图像生成工具,黑产可以在几分钟内生成数百条风格各异、甚至带有真实消费体验感的评价。

这些“机器评价”往往难以被普通用户识破。它们包含具体菜品名称、用餐环境描述、甚至情感化的感叹词,唯一的破绽是缺乏真实物理世界的细节——比如服务员的口音、邻桌的谈话内容。但大多数消费者不会逐条深究,而是基于评分和评价数量做决策。

更值得警惕的是,AI技术不仅用于文本生成,还能配合文生图工具伪造“带图好评”。一张精心制作的牛排照片,实际上可能来自某个食品摄影素材库,却被标记为“真实用户实拍”。这种造假手段让平台基于图像识别的审核机制直接失效。

陶雪璇在回应中明确表示“抵制和反对AI评价”,并直言AI评价“不应出现在社区公告板上”。但她面临的现实是:科技产品的进步让造假门槛越来越低,而识别造假的技术却需要大量算力和数据支撑。大众点评去年虽然启动了星级评分体系升级,但在“顶着竞争压力”推进的过程中,尚未完全堵住AI刷评的口子。

抵制AI评价:一场关于“真实”的平台正义

陶雪璇的表态之所以引发行业热议,是因为它触及了一个根本矛盾:到底什么算“真人”,什么算“AI”?如果一个用户用AI助手起草了评价草稿,自己修改后发布,这算不算AI评价?如果用户只是用AI诗词生成了一句俏皮的点评文案再进行润色,平台是否应该封禁?

大众点评的选择是“一刀切”——任何由AI生成的内容都不允许出现在社区。这种严苛立场背后是平台对“真实”的极度焦虑。因为一旦允许AI参与创作,就无法量化“人类辅助”的程度,评价体系的公信力将瞬间瓦解。

但问题在于,用户对AI工具的依赖正在日常化。很多消费者习惯用AI网名生成个性化账号名,用艺术签名设计个人简介——他们未必想造假,只是觉得AI更方便。当平台将这些行为一律禁止,可能误伤大量普通用户,导致活跃度下降。

陶雪璇团队面临的真正挑战是:如何在技术层面精准区分“恶意AI刷评”和“善意AI辅助”?目前行业通用的做法是打标签——如果检测到AI参与,就标记为“AI辅助评价”并降权展示。但大众点评选择了更激进的抵制路线,这或许意味着其后台已有足够的识别能力,或者宁缺毋滥。

商业与技术博弈:大众点评星级评分升级的深层逻辑

陶雪璇提到,尽管面临“市场交易的激烈竞争”,大众点评去年还是坚定发起了星级评分体系的升级。她强调是“顶着竞争压力也在推进”——这句话的潜台词是:竞争对手可能在用更宽松的评价规则换取活跃度,而大众点评选择了自断一臂。

升级的核心是什么?从公开信息看,新体系加强了对“到店真实性”的校验,比如要求用户必须通过地理位置签到、消费凭证上传等方式证明确实去过该店。同时降低单条评价的权重,更强调长期行为稳定输出的用户的评价。

这种设计思路本质上是将评价从“数量竞赛”转向“质量竞赛”。但风险在于:如果用户觉得发评价太麻烦,就会减少贡献,导致评价总量萎缩。而评价少的平台,在AI Agent技术的帮助下,更容易被小规模刷评团队操纵。

另一个深层问题是:大众点评的商业模式决定了它不能放弃商家端收入。那些花钱购买流量和广告的商家,如果发现评价门槛变高导致差评增多,可能会转向竞品平台。陶雪璇的“顶着压力”就是指这种左右为难——既要对消费者负责,又要保住商家资源。

这其实是一个典型的“监督困境”:当平台既是裁判又是运动员时,任何改革都会面临利益冲突。而大模型训练出来的智能工具,只会加剧这种冲突——因为商家可以用更低成本买到更逼真的好评。

重建信任:平台、商家与消费者的三方博弈

评价体系的核心是信任,而信任需要三方共塑:平台提供透明规则,商家停止造假冲动,消费者贡献真实反馈。但目前三方都处于一种“囚徒困境”中。

平台方面,企业数字化转型让很多生活服务App开始模仿大众点评的评价模式,竞争白热化。一旦大众点评收缩评价数量,竞争者可能趁机用宽松政策吸引商家和用户,形成“劣币驱逐良币”。

商家方面,在流量红利见顶的背景下,很多餐饮老板认为“不做假就没人来”。他们会在社交媒体群里发红包求好评,甚至雇佣兼职人员到店“云吃”。大众点评去年虽然处罚了一批违规商家,但陶雪璇也承认“对商家店内邀评的约束和治理有所放松”。

消费者方面,真正的用户越来越不愿意写评价——因为没动力、嫌麻烦。而那些愿意写的人,部分变成了“职业写手”或“薅羊毛党”。普通用户的沉默让平台数据失真更加严重。

要打破这种僵局,可能需要的不是技术升级,而是产品设计上的激励重构。比如引入“见习评价员”机制,让持续提供高质量评价的用户获得特殊标识和积分奖励;或者将评价与个人的信用体系挂钩,让虚假评价者承担社交成本。

未来评价生态:AI技术如何从破坏者变为建设者?

尽管陶雪璇明确抵制AI评价,但一个不可忽视的趋势是:AI技术本身可以成为评价真实性的“守门人”。比如,用多模态大模型分析图片中的元数据、光影一致性、餐厅布局逻辑,判断是否是真实拍摄;用NLP模型检测评价文本的情绪波动和细节密度,识别出AI生成的“平滑文本”。

国外已有平台尝试用AI工具导航中的反作弊模块自动标注可疑评价,并给用户提供“此评价可能由AI生成”的提示。这种做法既没有完全禁止AI辅助,又给了用户知情权,比一刀切更符合人性。

另外,生成式AI还可以用于模拟海量“合成基准评价”,帮助平台训练更精准的鉴别模型。比如,先让AI生成100万条虚假评价,再用这些数据训练一个检测器——让算法自己和自己博弈,不断提高识别准确率。

当然,这需要平台有足够的技术投入和开放心态。大众点评目前的“抵制”姿态更像是一种保守防御,但长远来看,唯有把AI技术纳入自身治理工具箱,才能真正实现“魔高一尺,道高一丈”。陶雪璇在反思后如何行动,将决定大众点评能否在智能工具时代重新赢得消费者的信任。

评价体系的命运,本质上是数字社区文明的缩影。当每一个虚拟评分都可能被算法和利益扭曲时,唯有坚持“真实”这一底线,才能让科技产品真正服务人类生活,而不是沦为商业操纵的玩具。