badcase是什么意思(AI应用实例（三）：音频审核)

颠倒众生的糊涂

2022-04-20 05:37:33

编辑导语:互联网时代，各种内容产品层出不穷，相关监管部门对内容的审核非常重要，各方面都需要审核到位。本文介绍了人工智能技术在音频审计中的应用。让我们来看看。

音频审计作为内容安全产品的一个模块，需要同时支持视频中的音频审计和内容审计中的独立音频审计。本节将与您讨论audio audit的产品设计和应用。

一、背景

随着各种内容产品的发展，当内容管理不到位时，很容易违反国家内容监管的政策。

如何避免非法内容的传播，可以说是各大内容厂商最为关注的环节之一。

所以内容的管理需要审计到位。但如果单纯依靠人工审核，估计像头条号这样的信息平台，每天都会有上万人审核。

目前家家都会接入内容审核平台，实现基于人工智能技术的内容审核，按照素材的维度分为视频审核、文字审核、图片审核、音频审核。

从审核内容来看，还包括色情、政治相关、图文违规、恐怖主义、禁令、广告等。

本文将讨论音频审计的维度。

二、关键技术

音频审计中的关键技术可以从两个方面来理解，即“语义”和“无语义”。

1.有语义类型。

语义类型是指要审计的内容中有明确的语义信息。

这里的文本审计一般可以被ASR识别后再转换成文本信息进行审计，所以会涉及到以下技术。

badcase

语音识别:通过ASR技术将音频转换成文本信息；

语言识别:识别一些小语种或者方言，然后通过语音识别转换成文字信息；

NLP技术:对语音识别后的文本信息进行处理，识别非法内容；具体可以包括广告词文本识别、禁止词识别、辱骂词识别等。

2.没有声音类型

无语义类型识别是指音频内容不包含语义信息，因此无法被ASR+NLP识别。

包括没有明确语言含义的音频内容，如气喘吁吁、呻吟、ASMR等。

直接提供提取音频的声纹特征进行分类识别，判断是否违法。

3.特殊类型

这主要是指对违禁歌曲的识别。一般这类非法内容虽然包含语义信息，但可能无法直接从内容信息判断。

因此，需要结合声纹识别和音频检索的技术进行识别。先建立禁歌库，再根据音频声纹特征进行识别检索。

如果出现在曲库里，会被判定为非法；否则就饶了它。

三、产品设计

1.应用场景

(1)场景:常见的需要应用音频审计的场景有语音聊天室、视频直播室、语音广场、FM电台、音频文学等等，这些场景都需要采用音频审计来保证内容的安全性。

(2)审计内容

涉黄审核:鉴别色情、低俗、污秽、喘息等。

广告审核:手机号等商业推广内容的识别；

政治审计:政治人物非法音频、反动分裂主义、恐怖主义等。

违禁审核:毒品、赌博、违禁品等违禁内容。

注:其实音频只是一个载体，以上审核的内容实际上会涉及到视频审核。

(3)场景发散

在这里，让我们多思考一下。目前所有的内容审核厂商基本都处于同质化竞争，所以产品的后续应该还是有竞争力的。

一方面是技术能力的迭代增强，另一方面是要进一步拓展场景。

比如你是支持AR内容的审核，还是和现在的元宇宙结合，是不是开始研究未来元宇宙的信息审核？

2.业务流程

这里从宏观的角度陈述了产品的业务流程，具体细节可以交流，文中不再赘述。业务流程主要包括三个部分。

源数据+预处理:通过访问待审计内容，进一步预处理，包括分段等。；

模型处理:审计的核心，通过输入预处理数据，进行AI分析，输出机器审计结果，包括确认违规、疑似违规和无违规；

人工审核:对涉嫌违法的内容进行审核，同时对违法和非违法的内容进行抽样，尽可能确认判断的准确性。同时，在这一步中，人工审核的badcase的数据也可以回流用于算法升级迭代。

注:在实际业务场景中，一般会考虑是先审批内容再发布，还是先发布内容再审核内容。

这里需要根据业务来判断，因为既涉及内容时间(希望抓住热点)，又涉及风险约束。

一般可以考虑先发违规风险低的内容，再审核(但要提供及时下架的能力，避免扩散的风险)，比如PGC内容。

3.产品功能设计

本节产品功能设计主要从能力平台的角度进行讲解，业务成果输出后涉及的业务系统不再分析。

可以从以下几个角度来设计一个比较完整的音频审计产品。

(1)函数接口:提供易用的API和SDK能力，包括数据请求分析、数据结果查询、规则定义接口(如添加非法词等。)，等等。

设计时需要设置字段支持，比如请求时要支持URL，是否支持音频审计模板(这里的模板是指审计所有音频还是根据模板中选择的审计维度进行审计，比如只审计涉黄)。

(2)可视化界面:建议同时提供可视化界面，方便访问用户查看数据。可视化界面不仅可以改善用户体验，还可以辅助用户使用产品。

通用可视界面可以包括以下几点。

音频分析:除了界面，用户还可以在可视化界面上传音频文件进行分析，然后查看分析结果。

规则设置:支持用户自定义违规内容，如设置违规广告词、政治相关敏感词等；

数据统计:可以包括两个部分，一个是统计数据分析的幅度以及成功和失败的分析次数等。另一方面，根据违规类型统计违规次数，比如某段时间的广告违规次数，色情内容的数量。

注意:除了以上三点，还可以支持用户管理，比如用户可以在系统中创建用户账号，支持不同的业务系统。

4.评价指标

评价指标需要从两个方面进行评价。

违规识别的准确率:统计被机器识别为违规并经人工审核确认的数据量/被机器识别为违规的数据总量；

违规识别召回率:统计机器识别为违规，人工审核确认的数据量/实际违规次数。

音频审核的发展可以对音频市场的扩大起到非常辅助的作用，内容发布的监管可以降本增效。

但在实际使用中，还是需要思考业务应用场景，针对场景进一步迭代优化技术，比如汽车场景的音频内容是否可以很好的审计。

目前还是很难的，因为汽车场景的音频很容易受到大量噪音的影响，所以不利于识别。

所以总的来说，对于产品来说，需要能够结合业务控制场景，才能让AI真正发挥作用。

本文由@ Eric _ d原创，大家都是产品经理。未经许可，禁止转载。

图片来自Unsplash，基于CC0协议。