全网敏感词检测(网站信息安全检测、敏感词过滤设计方案)

网站信息审核自动化、敏感词过滤功能目标

对于客户(业务员、用户)录入的信息和上传的文件(后期),实现自动审核过滤,做到尽量少人工参与!

通过检测程序中的文本对象,可以有效降低内容违规的风险。但不能完全解决内容违规问题。

我们会通过前端js和后端服务自动处理大部分违法内容,并返回处理结果;少量非法内容由人工参与处理,具体逻辑根据不同的业务场景提供不同的功能支持。

后期如果需要检测图片、音视频文件的内容,需要与第三方进行接口。

内容审核自动化(一半)




内容检测

内容审核方案



内容检测方案

以上第三方支持直接检测判断网站内容。

文本内容检测实施方案

1.非法词汇的检测和复习。

2.第三方接口检测审计。

3.人工审查。


图片、音视频内容检测方案

1.第三方接口检测审计。

2.人工审查。


文本反垃圾汇总



反垃圾算法

敏感词检测在线

文本信息检测流程(半)自动化

核心是通过前端程序和后端程序相结合来检测信息的违规,通过应用程序自动判定和处理大部分违规信息,并返回相应的处理结果。有效降低内容违规风险。


对于程序没有检测到的非法信息,通过人工审核的策略,去除或删除遗漏的非法信息。



文本信息检测处理流程

信息流概述:

1、用户输入文本信息,前端通过敏感词库进行JS检查判断,如果不合法则返回结果;合法,进行下一步;

2.服务器端通过敏感数据库对信息进行检测和判断,如果不合法则返回结果;合法,进行下一步;

3.调用第三方接口,检查判断,如果不合法,返回结果;合法,保存到数据库。【前期可以省略这一步】

4.人工审计。功能包括:巡视审计、信息审计、静音等操作。作为安全计划!(主要用于广告、刷屏和添加重复数据)

注意:【词库较大,需要注意检测方法的执行时间,控制在50ms以内,不影响业务;根据服务容错]


补充

在上述方案中,文本内容检测程序的响应时间会增加(尽量控制在10ms以内),进而影响整个应用的吞吐量。


前期:代码实现,优化方法执行逻辑,缩短程序执行时间。(测试方法执行时间)

应用集群可以稍后考虑。

审核结果处理方案

根据不同的场景,可以考虑不同的登陆设计方案来处理非法信息:

1、弹框提示

2.界面信息提示

3、信息提示

4.频繁传输、限制

5、现成的信息

6.账号被锁定或禁用

图片、音视频检测审核

前期主要是对文本信息进行检测和处理。

后期如果需要检测图片、音视频文件的内容,需要与第三方进行接口。

文本信息检测算法

检测方法可以参考- DFA算法/AC自动机,可以有效缩短检测时间。

  • DFA称为确定性有限自动机,即确定性有限自动机。
  • 大致就是将敏感数据构造成树形结构,完成搜索命中,然后进行处理。

  • aho corasick自动机
  • 多模式匹配算法:在主串中查找多个模式串。(字典树+kmp算法+不匹配指针)

    (原则待办事项)

    前端

    根据客户输入的信息,用js检测来判断是否会命中敏感词。

    后端

    服务器:通过已有的敏感词数据表查询判断。如果有很多敏感词,可以用redis进行缓存。

    数据库:敏感词数据表(可以稍后在后台维护中添加)

    功能设计

    场景1:添加数据

  • 方案一,敏感词的代码处理。
  • 2.方案,填写的数据不合法。
  • 结合人工审核,信息下架,网站不再显示。

    视频检测

    对接第三方,待办事宜

    您可以还会对下面的文章感兴趣

    使用微信扫描二维码后

    点击右上角发送给好友