内容审核（内容审核逻辑）

职业人才
2023-11-01 20:00
龙泉小编

内容审核（内容审核逻辑）

文章开始之前，给大家两条建议：

除非你别无选择，尽可能不要从事纯粹内容审核岗位
如果你的工作和运营或产品有关，都需要了解内容审核的逻辑

“儿童送养”这个话题在大多平台都是极为罕见的，但知乎最近就因此爆发了一场危及平台声誉的危机。

内容审核（内容审核逻辑）

内容审核就是这样一种职业，违法违规信息覆盖范围极广，新的违规信息层出不穷。无论你多么有经验、无论审核系统多么先进，只要发生问题，看起来都是很基础甚至很愚蠢的问题。

知乎这样一个有很强的技术实力和内容审核经验的平台，也会在这个问题上摔跟头。并且可以预料的是，不知道在多久的以后，知乎一定还会发生一次又一次因为存在违规内容带来的危机事件，这事情无可避免。有人说，对于内容审核人员来说这是从入门到被门槛绊倒，一点都不夸张。

读完这篇文章，你可以详细了解文字类内容审核的逻辑，还会了解一些图片和短视频审核的技术，足以补充一个运营或产品在这方面的知识储备了。

在不同公司，对审核类职位的划分标准不同，比如有内容安全审核、内容推荐审核、内容质量审核等类似职位。虽然在侧重点和具体操作上有所不同，但有许多逻辑都是共通的。为了避免文章过于复杂，我们在这里侧重最常见的内容安全审核。

审核模块

不管是什么内容的审核，都应该包含以下四个基础模块：机器审核、人工审核、用户投诉审核、结果复审。

内容审核（内容审核逻辑）

机器审核，是按照制定好的规则或机器学习算法对内容进行审核，通常，成熟的审核系统能将95%甚至99%以上的内容都自动审核并做出处理。确定有问题的会被自动删除，难以判断是否有问题的会被标注，进入人工审核程序。
人工审核，虽然用户投诉审核和结果复审大多时候也是人工审核，但这里所说的人工审核，特指审核机器无法判别的内容，通常占平台内容数量的比例不超过5%，但对于一些大型的内容平台，绝对数量已经很多了。在内容爆炸的时代，我们看到许多平台在全国都有多个审核中心，每个审核中心的员工数量都成千甚至上万。
用户投诉审核，是前两者的弥补，有很多违规内容以前没有出现过，所以不在规则可以过滤的范围内，或者非常隐蔽，规则难以严格过滤。用户的投诉是发现新问题的重要渠道。通过知乎的危机事件，我们更应该重视对投诉的审核，并及时据此对机器审核做出补充。
结果复审，通常采取抽查方式，比如通过复审机器删除的内容，看规则或算法是否过于严格；比如通过查看人工删除和通过的内容，看员工的工作是否按要求执行；比如通过内容的整体巡查，看是否存在新的问题未被注意到。

在文字类内容平台，比如知乎、简书、豆瓣以及各类论坛网站，机器审核主要是基于关键词过滤的逻辑，逻辑比较简单，但也没有想象的那么简单。

关键词过滤

一篇文章发布到平台后，需要至少经历以下环节：

内容审核（内容审核逻辑）

词语过滤的环节，关键词主要分为三类：

内容审核（内容审核逻辑）

禁止关键词，只要匹配到这个词，内容就被自动删除或禁止提交。通常只有极少数词会被纳入禁止关键词，比如明确的色情、邪教以及广告的专属关键词。

审核关键词，这是最常见的关键词种类，只要匹配到就会自动进入后台进行审核，文章中的关键词会被高亮并罗列出来，有助于审核人员快速判断。审核关键词也应该尽量是专属关键词，以防止太多内容被拦截到后台。

替换关键词，在许多平台，我们会在文中看到莫名的*号或字母缩写，这可能不是文章作者写的，而是这个词被系统自动替换。平台不希望出现这个关键词，但用别的代替读者通常也能读懂。比如一些政治、宗教、不文明用语类词语，都有可能被自动替换。

内容审核（内容审核逻辑）

当然，管理员在添加关键词时，很多时候并不是直接把关键词添加到后台。否则用户用很简单的方式就可以避过关键词过滤，比如在关键词内加一个空格，系统就难以匹配到。

所以，一般后台都会支持限定符{x} 以限定相邻两字符间可忽略的文字，x 是忽略的字节数。在Discuz!网站后台有明确说明，如 “a{1}s{2}s”(不含引号) 可以过滤 “ass”也可过滤 “axsxs”和 “axsxxs”等等。对于中文字符，若使用 GBK、Big-5 版本，每个中文字符相当于 2 个字节；若使用 UTF-8 版本，每个中文字符相当于 3 个字节。

另外，关键词还可以支持正则表达式，来匹配具有一定模式的关键词，比如”/1d{10}([^d]+|$)/“（不包括引号）用来匹配手机号码。正则表达式的内容过多，大家有兴趣可以搜索学习一下。

技术概览

以上讲述的，主要是文字类内容的审核和规则，逻辑简单，但应用最为广泛。近年随着短视频类产品的兴起，内容审核的逻辑需要更加深层的技术支持。

技术上的东西，对大多人来说如同天书，而且也没有必要深入了解。我们挑选几个容易理解的点，来窥探几分内容审核背后的技术。

内容审核（内容审核逻辑）

来源：某相关产品宣传网页

OCR（文本识别技术），主要用来识别图片中存在的文字。许多违规内容，包括联系方式、色情信息、广告信息等为了规避审核，都会以图片的方式呈现。

人脸识别技术，通常用来识别政治、宗教类人物，识别到后可以直接删除或者进行风险标记。

语音识别技术，语音识别的应用场景比较多，但在内容审核领域仍然不是刚需，所以使用的较少。但也有些直播或音频平台比较重视音频对比、声纹识别技术，可以轻易识别到一些固定模式的违法违规声音。

视频识别≈图片识别，视频是画面与音频组成的以帧为单位的画面，通常采取截帧上传与服务器数据对比来识别。审核模式和图片审核相同，比如通过画面皮肤裸露状态来判断是否过于性感、是否是色情内容。

上下文语义识别技术，这种技术用来判断一句话是否能跟上下文结合，是否是一段垃圾文本。比如说，在评论区随便输入一串奇怪的文本，如果系统认为和上下文不相关，就有理由将内容放入审核区。

技术是很酷，用好了可以大量减少我们的工作，但内容审核技术的实施是一件很难一劳永逸的事情，其中的尺度和参数都需要人来不断维护，而且人工审核仍然是非常有必要的，并且需要的人工可能越来越多。内容审核技术的应用，仍然任重道远。

常见问题

1. 替代关键词不能太简单

我曾经在一款APP上看管理类文章，整篇文章多处说到给员工定绩效要遵循“**ART原则”，我迟疑了好几秒才明白，原来是“SMART原则”。

SM这个词只有两个字母，无论是作为禁止、审核还是替换关键词都不合适，都容易拦截或替换大量不应该处理的内容，一般的方法很难处理。

这时候，我们可以总结一下模式，如果sm这两个字母前面是英文字母，或者后面是英文字母，一般来说就是另一个英文单词，就不会有问题。我们就可以用正则表达式把这一规则写出来，再设置审核或替换就会好很多。

2. 审核时间与用户体验的权衡

去知乎和微博搜一下“审核”，被抱怨最多的问题就是审核时间长。用户提交内容到内容审核通过，这期间心情会剧烈波动，如果用户等了一两天时间，最后内容被莫名其妙地拒绝，而且不给任何明确的拒绝理由，用户的心情就会由期待变为焦虑，进而变成愤怒，这就是B站被up主抱怨最多的地方。

我们可以从以下角度优化用户体验：

用户提交内容后，正常呈现已发布的内容状态，可以反复编辑，只是给出状态提示，提示内容正在审核，如果有必要可以提示一般多久可以审核完。
用户提交内容后，如果进入审核，但觉得问题不大，或者用户历史记录良好，可以自动进入“限流”状态，即只允许自己和粉丝/好友观看。待审核通过后，开放给所有人。这期间不需要给用户任何提示。
用户内容被拒后，原因是可以找到依据、可以确定的。很多平台都是让用户具体原因参考某某规范文档，但这个文档里又是一堆大而化之的空话。许多时候机器审核是存在误删的可能的，这时候如果申诉渠道也不能及时反馈，就会让人非常火大。
优质账号设为信任账户或优先审核。比如官方账号、以前从没出现问题的老账号，至少应当做到优先审核，甚至直接放开，先放后审。

3. 理解内容审核的保守倾向

越是体量很大的平台，内容审核越是有保守倾向，这不只是因为盘子大了更加在意风险管理，还有一些现实的原因。内容数量太多，平台就不得不采用规则和算法去审核，这些规则和算法需要最终做出决策，就难免拿着标准一刀切，即使这把刀很小也会有误伤，这种标准对很多内容就显得过于严格。

比如皮肤裸露面积达到多少会有问题、裸露哪些位置会有问题，无论标准多么的细化，都会存在误判，被误判的内容比例可能很小，但绝对数量很大。据说很多图片和视频中如果存在加菲猫，都会被过滤掉，因为它黄色面积太大而且和人的皮肤很像。

在被审核的用户看来这些标准有点保守，有点不近人情，甚至可笑。平台的管理人员也知道问题，但他们很难做到很细致，为了快速把违规的内容剔除，只能牺牲掉一部分人的用户体验，毕竟违规内容一旦出现，对平台来说就是大问题。所以说，内容审核技术的应用还非常任重道远。

以上的内容，对于一个运营或产品工作者来说，已经足够了。但如果你真的需要对一款产品的内容审核规范负责，就需要去学习更多知识，需要有更加专业的精神和更谨慎的态度，未来还会有无数难以预料的坎坷等着你。

本文由 @内容工程师原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

免责声明：本文内容来源于网络或用户投稿，龙泉人才网仅提供信息存储空间服务，不承担相关法律责任。若收录文章侵犯到您的权益/违法违规的内容，可请联系我们删除。

https://www.lqrc.cn/a/zhiye/73481.html

微信分享

关注微信

上一篇：内容审核（内容审核行业研究）

下一篇：暂无

内容审核（内容审核逻辑）

审核模块

关键词过滤

技术概览

常见问题

1. 替代关键词不能太简单

2. 审核时间与用户体验的权衡

3. 理解内容审核的保守倾向

猜你喜欢

热门标签

随便看看

百姓网招聘信息（忙着找暑假工的小伙伴千万擦亮眼睛）

招聘蜘蛛人（为了赚钱）

奉节招聘（重庆市奉节县卫生事业单位公招127人）

宁化在线招聘信息网（含编内）

宇龙通信（金龙机电）

阅读排行

徐州西苑招聘（重磅公示）

韶关烟厂招聘（速看）

一建人证合一招聘（建筑工程招聘与求职5）

胶南信息港最新招聘（深度分析）

西安司机最新招聘信息（西安公交招聘1500名驾驶员）

关注我们

内容审核（内容审核逻辑）

审核模块

关键词过滤

技术概览

常见问题

1. 替代关键词不能太简单

2. 审核时间与用户体验的权衡

3. 理解内容审核的保守倾向

猜你喜欢

热门标签

随便看看

阅读排行

关注我们

微信公众号