badcase分析(人工智能的人工部分-数据标注(上))

编辑导读:人工智能的发展是通过对已知样本的不断学习来实现的。在有监督学习的情况下,人工数据标注是智能的前提和灵魂。笔者对此进行分析,希望对你有所帮助。



当今社会,人工智能领域蓬勃发展,各个领域都在追求智能化,包括智能驾驶、智能家居、智能语音、智能推荐等等。人工智能就是通过机器学习来学习大量的已知样本,然后在具备预测能力后对未知样本进行预测,从而达到智能化的效果。机器学习可分为有监督学习和无监督学习,无监督学习效果不可控,常用于探索性实验。

在实际应用中,通常有监督学习,监督学习需要数据标注,所以智能的前提是人工,因为智能结果的输出是很多人工样本的输入。可以说,人工数据标注是智能化的前提和灵魂。没有劳动就没有智力,有多少人就有多少智力。

一、数据标注的分类

数据标注从难度上可以分为常识标注和专业标注。比如在地图识别领域,大部分标签都是常识标签,道路、路标、地图等标记数据,语音识别标签都是常识标签。做这类贴标工作的难点在于需要大量的贴标训练样本,因为应用场景多样复杂,对贴标人员没有专业技能要求,主要是认真负责,高效率高素质的贴标人员才是好的贴标人员。

医学诊断领域标注多为专业标注,因为疾病和症状的分类标注只能由具有医学专业知识的人来完成,招聘领域标注也是专业标注,因为标注人员需要熟悉招聘业务,各岗位所需的知识和技能,还需要了解HR招聘的关注点,从而判断简历是否符合岗位的招聘要求。这类标注工作需要有招聘该领域专业知识的标注者,或者标注专家。标注工作存在许多困难,如选择和培训合适的标注者、定义标注规则、控制标注质量等。

数据标注从标注目的上可以分为评估标注和样本标注。

I型标注一般用于评估模型的准确性,寻找一些Badcase样本,然后优化算法模型。为了节省注释资源,这种类型的注释可以控制注释的数量。一般可以标注上千个数据,样本具有统计学意义。标注完成后,需要统计正确率和错误样本。这种类型的注释的重点是总结错误样本的原因,分析每个Badcase的原因,并将原因总结成不同的类别。有了原因分析,便于算法学生按类型、批次进行优化。

类型标记是为模型提供早期训练样本。作为机器学习的输入,这类标注需要标注大量的数据,一般需要标注上万个数据。出于样本平衡的考虑,标注样本多为随机选取,有一定程度避免样本偏差的优点,但有标注数据量大的缺点。如果是文本样本,有时候算法可以提取一些高频高质量的样本进行标注,可以在一定程度上减少标注工作量,但是可能会出现样本偏差。总之,样品贴标签是一项辛苦的工作,业内有句话:如果你对一个人有怨恨,那就劝他贴标签。

数据标注从标注对象上可以分为文本标注、图像标注、语言标注和视频标注,从标注方法上可以分为分类标注、框架标注和点标注。这些注释分类基本属于注释形式的差异,没有很强的专业性,就不多说了。

二、数据标注规则的制定

常识标注的规则相对简单,可以对部分样本进行标注,总结出更一般的规则,但专业标注的规则相对复杂,在制定专业标注规则时应遵循以下三个原则:多维分析与综合分析相结合、因素权重影响因素的情景化、问题类型的标注与结构化。以下是招聘领域简历与职位匹配度评分规则的指导思想,详细规则将在数据评分(第二部分)中描述。这个阅卷规则符合阅卷规则制定的三大原则。



第一,多维分析与综合分析相结合。

简历与职位匹配度的影响因素必然是多维度的。不能只参考工作经验或专业要求的一个因素或几个因素。需要多维度分析,最终给出综合评分结果。当然,简历和职位匹配是不可能给出综合分数的。你不能纯粹从情感上告诉标注者:你觉得简历和职位很匹配就给它打分,不匹配就不给它打分,这在逻辑上是不合理的。所以需要先对单个因素进行评分,再参考各个因素的评分结果,最后综合分析给出评分结果。

第二,因素权重影响场景中的因素。

如前所述,简历与职位匹配度的评估需要对每个因素进行评分。如何在给每个因素打分后给出一个综合得分,并给每个因素一个权重?然后按权重算总分?答案是否定的,我们要根据具体场景对所有因素进行分类分析,比如设置一些重要因素。重要因素不匹配的,可能不直接计分。例如,工作经验代表一个人的能力。如果候选人不具备该职位的能力,总分必须为0。还有其他因素不是很重要,但是会影响分数。有些因素有时重要有时不重要,比如年龄,HR想要一个有1-3年经验的行政专员,候选人40岁。这种情况肯定会影响最后的分数,很有可能总分是0。所以需要结合场景对所有影响因素进行分类分析。

三、题型标签化结构化。

成绩一般是以分数的形式显示,ABCD,或者0123,然后一组数据并没有拿满分。为什么?哪里不符合?因此,在前期制定标注规则时,一定要将原因分析考虑在内,列出所有不匹配的原因,形成结构化的原因标签,有利于最终分析Badcase的分类和比例,然后算法或策略团队在优化时可以优先解决比例高或影响不好的案例。

数据标注是一项看似简单实用却非常复杂的工作,涉及标注分类、标注规则制定、标注原因分析、标注体系构建、标注团队管理等。,尤其是涉及到专业领域,更是难上加难。本文主要介绍了标注分类、标注规则的制定、详细的标注规则和标注系统的构建,标注团队管理将在未来更新。希望大家继续关注。感谢您的阅读!

badcase

本文由@燕杰原创发布。每个人都是产品经理。未经作者允许,禁止转载。

图片来自Unsplash,基于CC0协议。

您可以还会对下面的文章感兴趣

使用微信扫描二维码后

点击右上角发送给好友