全网敏感词检测(网站信息安全检测、敏感词过滤设计方案)

星语星愿

2022-04-20 15:47:50

网站信息审核自动化、敏感词过滤功能目标

对于客户(业务员、用户)录入的信息和上传的文件(后期)，实现自动审核过滤，做到尽量少人工参与！

通过检测程序中的文本对象，可以有效降低内容违规的风险。但不能完全解决内容违规问题。

我们会通过前端js和后端服务自动处理大部分违法内容，并返回处理结果；少量非法内容由人工参与处理，具体逻辑根据不同的业务场景提供不同的功能支持。

后期如果需要检测图片、音视频文件的内容，需要与第三方进行接口。

内容审核自动化(一半)

内容检测

内容审核方案

内容检测方案

以上第三方支持直接检测判断网站内容。

文本内容检测实施方案

1.非法词汇的检测和复习。

2.第三方接口检测审计。

3.人工审查。

图片、音视频内容检测方案

1.第三方接口检测审计。

2.人工审查。

文本反垃圾汇总

反垃圾算法

敏感词检测在线

文本信息检测流程（半）自动化

核心是通过前端程序和后端程序相结合来检测信息的违规，通过应用程序自动判定和处理大部分违规信息，并返回相应的处理结果。有效降低内容违规风险。

对于程序没有检测到的非法信息，通过人工审核的策略，去除或删除遗漏的非法信息。

文本信息检测处理流程

信息流概述:

1、用户输入文本信息，前端通过敏感词库进行JS检查判断，如果不合法则返回结果；合法，进行下一步；

2.服务器端通过敏感数据库对信息进行检测和判断，如果不合法则返回结果；合法，进行下一步；

3.调用第三方接口，检查判断，如果不合法，返回结果；合法，保存到数据库。【前期可以省略这一步】

4.人工审计。功能包括:巡视审计、信息审计、静音等操作。作为安全计划！(主要用于广告、刷屏和添加重复数据)

注意:【词库较大，需要注意检测方法的执行时间，控制在50ms以内，不影响业务；根据服务容错]

补充

在上述方案中，文本内容检测程序的响应时间会增加(尽量控制在10ms以内)，进而影响整个应用的吞吐量。

前期:代码实现，优化方法执行逻辑，缩短程序执行时间。(测试方法执行时间)

应用集群可以稍后考虑。

审核结果处理方案

根据不同的场景，可以考虑不同的登陆设计方案来处理非法信息:

1、弹框提示

2.界面信息提示

3、信息提示

4.频繁传输、限制

5、现成的信息

6.账号被锁定或禁用

图片、音视频检测审核

前期主要是对文本信息进行检测和处理。

后期如果需要检测图片、音视频文件的内容，需要与第三方进行接口。

文本信息检测算法

检测方法可以参考- DFA算法/AC自动机，可以有效缩短检测时间。

DFA称为确定性有限自动机，即确定性有限自动机。

大致就是将敏感数据构造成树形结构，完成搜索命中，然后进行处理。

aho corasick自动机

多模式匹配算法:在主串中查找多个模式串。(字典树+kmp算法+不匹配指针)

(原则待办事项)

前端

根据客户输入的信息，用js检测来判断是否会命中敏感词。

后端

服务器:通过已有的敏感词数据表查询判断。如果有很多敏感词，可以用redis进行缓存。

数据库:敏感词数据表(可以稍后在后台维护中添加)

功能设计

场景1:添加数据

方案一，敏感词的代码处理。

2.方案，填写的数据不合法。

结合人工审核，信息下架，网站不再显示。

视频检测

对接第三方，待办事宜

敏感词检测在线

全网敏感词检测(网站信息安全检测、敏感词过滤设计方案)

您可以还会对下面的文章感兴趣

相关文章：