对于客户(业务员、用户)录入的信息和上传的文件(后期),实现自动审核过滤,做到尽量少人工参与!
通过检测程序中的文本对象,可以有效降低内容违规的风险。但不能完全解决内容违规问题。
我们会通过前端js和后端服务自动处理大部分违法内容,并返回处理结果;少量非法内容由人工参与处理,具体逻辑根据不同的业务场景提供不同的功能支持。
后期如果需要检测图片、音视频文件的内容,需要与第三方进行接口。
内容审核自动化(一半)
内容检测
内容审核方案
内容检测方案
以上第三方支持直接检测判断网站内容。
文本内容检测实施方案1.非法词汇的检测和复习。
2.第三方接口检测审计。
3.人工审查。
1.第三方接口检测审计。
2.人工审查。
反垃圾算法

核心是通过前端程序和后端程序相结合来检测信息的违规,通过应用程序自动判定和处理大部分违规信息,并返回相应的处理结果。有效降低内容违规风险。
对于程序没有检测到的非法信息,通过人工审核的策略,去除或删除遗漏的非法信息。
文本信息检测处理流程
信息流概述:
1、用户输入文本信息,前端通过敏感词库进行JS检查判断,如果不合法则返回结果;合法,进行下一步;
2.服务器端通过敏感数据库对信息进行检测和判断,如果不合法则返回结果;合法,进行下一步;
3.调用第三方接口,检查判断,如果不合法,返回结果;合法,保存到数据库。【前期可以省略这一步】
4.人工审计。功能包括:巡视审计、信息审计、静音等操作。作为安全计划!(主要用于广告、刷屏和添加重复数据)
注意:【词库较大,需要注意检测方法的执行时间,控制在50ms以内,不影响业务;根据服务容错]
在上述方案中,文本内容检测程序的响应时间会增加(尽量控制在10ms以内),进而影响整个应用的吞吐量。
前期:代码实现,优化方法执行逻辑,缩短程序执行时间。(测试方法执行时间)
应用集群可以稍后考虑。
审核结果处理方案根据不同的场景,可以考虑不同的登陆设计方案来处理非法信息:
1、弹框提示
2.界面信息提示
3、信息提示
4.频繁传输、限制
5、现成的信息
6.账号被锁定或禁用
图片、音视频检测审核前期主要是对文本信息进行检测和处理。
后期如果需要检测图片、音视频文件的内容,需要与第三方进行接口。
文本信息检测算法检测方法可以参考- DFA算法/AC自动机,可以有效缩短检测时间。
大致就是将敏感数据构造成树形结构,完成搜索命中,然后进行处理。
多模式匹配算法:在主串中查找多个模式串。(字典树+kmp算法+不匹配指针)
(原则待办事项)
前端根据客户输入的信息,用js检测来判断是否会命中敏感词。
后端服务器:通过已有的敏感词数据表查询判断。如果有很多敏感词,可以用redis进行缓存。
数据库:敏感词数据表(可以稍后在后台维护中添加)
功能设计场景1:添加数据
结合人工审核,信息下架,网站不再显示。
视频检测对接第三方,待办事宜








