最严内容审核的100条红线常见的内容治理问题有哪些

韩式微笑 2023-04-22 05:32:52

在治理内容社区、维护内容安全的平台运营过程中，运营人员往往需要保证内容质量，避免违规内容的出现，以保障用户的使用或阅读体验。那么，常见的内容安全问题和质量问题有哪些？我们又应该如何做好治理动作？一起来看看作者的经验分享。

写这篇文章最害怕的就是涉及公司机密信息，反复检查了好几遍所举案例。

写这篇文章的目的，首先，这并不会涉及到公司机密。其次，我们治理过的这些问题大部分属于内容行业共存的问题，但对于不同公司的风控人人员不一定能够关注全面。

所以打算脱敏写出来，风控人员可以查漏补缺，希望能够对内容行业产生一点帮助，共同使行业更好。

在工作中，我负责公司社区生态治理，主要包括干掉坏内容、干掉坏用户、提升内容质量、提升用户体验。这篇主要说干掉了哪些坏内容、干掉了哪些坏用户。

本文从以下几个方面展开来说：
治理内容安全问题；
治理内容质量问题；
从用户角度做治理；
处罚方式；
治理经验。
一、治理内容安全问题
干掉坏内容包括两部分，一部分是业务型内容，即业务不需要的这部分内容，一部分是安全型内容，即监管部门让删除的内容。

治理过的安全内容很多，例如涉黄、危害青少年、引导错误的价值观、负面舆情等，这些是监管部门明确要求不能存在的（这几个好举例，其他治理过的涉及安全的内容不一定适合举例）。
二、治理内容质量问题
对于质量型内容，监管部门不会来要求删除，但平台不希望这类型内容存在，例如有用户 5 月份在多条帖子下大量评论“新年快乐”，这个对业务来说，属于低质评论，需要治理的对象，下面将展开说我们主要治理过的问题。
1. 重复 / 改写 / 抄袭

由于生产有奖励，用户生产有成本，所以部分用户有动机将已经生产的优质内容复制，然后重新发布以便快速获得奖励。

为避免内容同质化，及平台花钱买到低质内容，所以会治理这类型内容。

从内容形式上划分可划分为重复图片、重复文本（也有重复视频，但治理方式识别方式类似重复图片，所以未单独划分）。

1）重复图片

需要治理重复图片是因为用户消费一段图文内容时，会优先看到图片，若图片相同，用户会默认为文本也相同，进而认为内容同质化。

若相同图片出现次数较少，则可通过算法打散分发，不让同一个用户在短时间内看到相同图片内容即可。但若相同图片出现次数较大，则较难由分发打散，且部分分发场景是 timeline，算法不参与分发。

使用的识别形式包括两种，一种是计算图片 md5，使用绝对相等，一种是相似图模型识别。识别之后再结合一些策略，当相似度达到一定值，且相似或重复次数达到一定量，且由≥一定 uid 数量发布时，则会对之后进行发布的内容进行一些处理。

在这条通用策略之下，还会配置一些特殊策略，例如针对某些场景 / uid / md5 执行不同策略等。

2）重复文本

针对重复文本是和用户不断对抗的过程。

① 用户发布重复内容，平台开发重复模型，且将重复度≥一定值的内容判定为重复内容。注：治理重复内容本质是希望当前线上不给用户展示重复内容，所以对比内容库仅为线上内容。

② 用户对抗，用户将之前发布的内容删除后重新发布，平台将对比内容库增加已删除内容。

③ 用户对抗，用户通过删除一头一尾、替换部分文本、替换数字、更换不影响语义的标点符号 / 无意义字符、删掉部分内容、替换同义词、固定模板等方式，生产人工能快速判断为重复，但重复模型无法识别的内容。平台迭代重复模型，通过梳理用户改写的类型，迭代模型，使模型能够识别出这些类型的重复内容。

④ 用户对抗，用户通过随意摘抄一段菜谱、名人语录、歌词、电影台词等，平台通过制定审核规则，由人工判断。

⑤ 用户通过其他无法预知的方式生产重复内容，平台通过产品功能优化来解决。例如：
要生产重复内容，则会从一个地方复制然后在另一个地方粘贴，则可在粘贴提示、粘贴限制等产品功能上优化；
生产重复内容的用户有个共性，发帖量较大，则可对单位时间发帖上限做限制；
有粘贴行为的用户较大概率为重复内容生产者，则可通过粘贴行为拎出用户做离线数据分析，从用户维度进行处理；
也可对新进行用户教育、新手引导、优质内容引导等。

注：以上仅为极简的策略，在实际应用场景上还有很多细节限制，例如重复文本的判断仅针对字数≥一定值的内容才执行；例如评论场景和帖子场景会差异化的配置；例如重复模型迭代需要不断发现并梳理重复违规类型。
2. 虚假信息

对于任何平台都会存在虚假信息，这些虚假信息来自用户主动或不自知的生产。虚假信息虽然占比较低，但对用户的影响很大。可能是影响用户判断、可能是了解到错误信息、可能是进入到一个错误行业、可能是被骗钱财等，几乎每一个都会对用户造成较大负面影响。

不管平台是希望用户能够更相信平台，还是从平台承担着一定社会责任角度来说，都需要治理虚假信息。

要治理虚假信息，第一个问题一定会问：什么是虚假信息？

并不能说让模型判断，模型觉得是虚假的就是虚假。也不能让审核人员自己判断，他觉得是虚假就是虚假，那可能会出现审核人员 A 觉得是虚假信息，但审核人员 B 觉得不是虚假信息。

但也没办法给虚假信息一个统一的定义，如果能给出，那一定是去掉了很多细节，是不具有可执行性的一个定义。

所以只能看大量 case、以及看用户反馈、用户举报信息、审核反馈等，收集大量可能是虚假的信息。再自己判断其中属于虚假的信息，再划分不同场景，根据每一个场景制定不同的标准，定义清楚什么叫做虚假信息。

举例我们制定过的几个细分场景下的虚假信息的定义。

① 外卖员、快递员等，晒收入截图，月收入超过一定值，或日收入超过一定值，则定义为虚假信息。从行业数据来看，能达到这个数值的用户不到 0.5%，相对虚假信息带来的危害，平台宁愿接受这部分误伤的存在。

② 男性，发布女性照片，并且表达意思为想相亲，如果有大哥觉得合适可联系我，则定义为虚假信息。可结合用户认证信息、机器识别照片及文本语义来判断。

③ 用户在一定周期内过渡频繁的在内容中更换职业，例如昨天的发帖说自己是理发师，今天说自己是电焊工，明天说自己是厨师，则判断为虚假信息。因为正常用户不会在这么短的周期内这么频繁的更换职业，在我们内部称这类型用户为“百变小樱”。

此类用户目的大多为吸引用户联系自己，以便进行下一步诈骗。我们也会制定相应的策略来识别，在一定周期内用户发帖的身份大于等于一定值，则会送人审，结合这个用户的其他信息来判断是否属于百变小樱（因为这个策略存在相对较高的误伤，所以不能机器识别后直接处理）。

通过对虚假信息定义的经验，可形成以下四个步骤来定义治理问题的标准化流程。
步骤一：通过各种渠道浏览大量样本，渠道包括自己浏览、用户反馈、用户举报、审核反馈等。
步骤二：针对样本做特征分析。
步骤三：总结归纳。
步骤四：细分场景制定标准。
3. 话题不相关

话题不相关是指，内容行业为了控制生产方向，往往会产生话题，让用户基于话题进行生产相关内容。

但用户在生产内容时，可能由于生产成本过高，或无能力生产相关话题的内容，或其他原因，会主动去生产和话题不相关的内容。

对于用户消费聚合内容来说，这就属于垃圾内容，例如在一个聊 AIGC 的话题下包含一篇聊母猪的产后护理的优质文章，对于用户来说是不需要的，在这个场景下属于垃圾内容。

对于识别和话题不相关的内容，开发了话题相关度模型，根据相关度高低来决定给创作者多少奖励，及决定内容应用场景。

模型主要识别两个方面。

一类是与话题不相关，例如将话题复制一遍、内容和话题完全不相关、答非所问、内容完全无意义、同一领域但完全没回答问题等。举例：
话题：快递派送前如何录入系统？
内容：快递派送前如何录入系统？他们都在一各家一各减的少吗？少马国系统所以说相对来说还是比较麻烦的，只不过是少马路系统，这样的话基本上不会有酒驾的问题，我觉得还算是很不错的吧

另一类虽然与话题相关，但脱离话题的限定条件，例如话题限定了行业、需包含收入水平、限定了场景，但内容并不包含相关信息。举例：
话题：因为做焊工工作，你得了什么职业病？
内容：没从事过焊工，不过倒是有职业病，比如筋膜炎等。
4. 水帖

来自百科的定义，水帖：水帖是贴吧、论坛或bbs中一种对于主题不重要的、无意义的帖子的统称。

对于社区来说，内容中充斥着水帖，会降低整个社区内容质量，成熟社区都会治理水帖。

在具体治理过程中就需要生态治理产品去发现水帖并总结归纳类型、思考是否需要治理、治理到什么程度、以什么工具治理、给予什么处罚等。

下面举例一些制定过的策略、规则，以及使用过的识别模型。

① 纯文本，且字数小于等于一定值

通过分析历史数据发现，当用户发帖小于等于一定值，且不带图片时，对于我们平台，这条内容基本不具有消费价值，就会以一种用户无感知的不分发的形式处理。

举例：啦啦啦、夕阳无限好、美好的一天、湖州你好

② 仅包含标点符号、数字、emoji 等

③ 部分 uid 在部分场景发帖 / 评论

用户每次违规都会有记录，也会扣相应的分数，当某些类型的违规在一定周期内达到一定次数，或一定周期内的扣分数达到一定值，则会对用户进行处罚，即阶梯处罚。

举例，用户在 7 天内发布水帖次数≥10 次，则会将用户在激励场景的发帖或评论全部不给予奖励（注，这并非系统完整逻辑，也并非真实数字）。

④ 命中水帖治理词库

⑤ 多账号多设备

若用户同一个设备上一定周期内登录过多个 uid，或一个 uid 在多个设备上登录过，分析这些用户的历史数据，发现较大量的存在无法识别的水帖（因为平台策略是有限的，用户违规方法是无限的，当用户了解平台策略之后，会用各种办法逃过策略）。

所以会制定一条策略，当用户触发「多账号多设备」时，则会将他内容送入更严的模型，例如普通用户对于低质模型，达到 0.9 才处罚，对于「多账号多设备」用户的内容，则达到 0.8 就会处罚。

⑥ 文本中包含某些关键词，且文本字数≤一定值

在评论场景，当把所有水帖内容拉出来看时会发现，水帖内容也会有一些共性，例如字数相对较短，虽然长尾很分散，但也会有一些头部的高频词汇，例如红红火火恍恍惚惚、哈哈哈、支持一下、谢谢分享、开心每一天、打个卡、你好、谢谢、加油等内容。

对于一些短文本，这些词为主要内容，则可理解为水帖。如果是一段 100 字评论，里面包含这些词，则不能认为这是水帖内容。如果不限制字数或比例，则会很容易出现误伤。

但这对不同平台的处理严格程度不同，我们平台会选择治理，其他平台可能会选择不治理。治理是因为宁愿用户少看到评论，也不愿让用户看到低质评论，以及避免带来连锁反应，其他用户跟着学。

⑦ 非新年期间评论包含「新年快乐」

这是在我刚开始做风控时做过的一条非常失败的策略。

背景信息，分析历史数据发现，五月份有部分用户在评论区大量发布「新年快乐」相关评论，虽在设备、IP、账号、注册信息、登录信息等均无关联性，但从发布的内容及发布内容时间来看，基本可确认是属于同一个人或团伙在操作。

且发类似文本的账号在不断新增，所以没从账号或设备维度进行治理，而是仅从内容维度出了策略，策略逻辑：在非新年期间评论新年快乐及其变形的文本做自见处理（仅自己可见）。

这条策略失败的点在于，只能解决了当前存在的这个特定问题，未考虑这类问题在将来如何有一个通用的解决方案。例如用户将「新年快乐」变为「中秋快乐」或「背包好看」就失效了，且用户的变形成本极低。

例如可以计算单个用户周期内词频，一定频率可直接处理，一定频率可送人审。也可以计算全局周期内词频，对于环比变化过大的词可给人工预警提示等。

⑧ 低质模型

低质模型识别包含语句通顺度、虚词、感叹词、乱打字、文本无实际意义等逻辑，以及一些既定策略会融合进模型。

虽然很多策略可融合进模型，但由于策略的可解释性强，易调整等优点，还是会让一些策略单独存在，不融合进模型。

以上一些案例几乎都是从内容维度来识别，进而从内容维度进行治理，但在工作中还有较大一部分是从内容维度识别，然后从用户维度进行治理，以及从用户维度识别，从用户维度治理，从用户维度进行治理将在下一章展开说。

以上所举例都是发现了某些问题，然后进行治理，但如何去发现这些问题的，在这篇文章中有详细说：《风控：上线一条规则/策略的完整流程》。
5. 联系方式

所说联系方式包括图片 / 视频 / 音频 / 文本中包含手机号、微信号、qq、网址、二维码等联系方式，以及以上内容的变形。例如空格隔开、中英文、拼音、手写、中文音异、电话通话截图、半打马赛克、形异、文本头像结合、拍摄名片 / 拍摄二维码 / 海报 / 宣传单 / 纸条 / 手写联系方式、手写并简单计算，以及诱导联系方式等。

我们不允许发布联系方式，因为社区场景不需要联系方式。并且经分析历史数据发现，当出现联系方式时，比较大概率会同时出现诈骗、刷钻引流、广告、逃单、隐私安全、线下风险、骚扰、账号交易等，带来危害比较严重，且容易漏识别，所以可从杜绝联系方式角度降低诈骗、刷钻引流、广告等问题。

针对这些问题也会建设对应策略来识别。举例部分策略：
文本中数字或字母连续≥一定值，则认为这是连续方式；
检测电话、QQ号、微信号、网址、二维码；
检测数字分段联系方式；
检测变形联系方式；
检测多昵称拼接联系方式；
检测多条回复拼接联系方式；
检测含数字变形的联系方式；
检测内容包含恶意引流文本且检测包含联系方式；
以及制定人工审核规则等；
……

一些案例：
点击[http:/xxxxxxxx]查看表情
看到你的留言了，佳沃k16rvvf7
为我，A嗯6嗯0嗯5嗯9嗯3嗯9嗯8嗯
妖雾气呜呜妖吧妖雾三气
加v ➕yan 七二四三九xx五
想了解咨询我吧：壹肆柒xx伍零柒柒柒捌！！！！
l六七4420五xx久
请连起来152号823室791厅66聊
1️⃣7️⃣6️⃣9️⃣3️⃣1️⃣9️⃣8️⃣8️⃣3️⃣