机器心脏报告
编辑:蛋酱,杜威,船
世界上从来不缺抠图工具,但总缺更完美的抠图工具(尤其是针对残障党)。
在传统时代,人们能想到的最准确的抠图方法,大概就是Photoshop等专业的图像处理软件,显然会比较繁琐。随着人工智能技术的发展,从业者开始尝试将最先进的机器学习技术融入到图像处理中。这些开源算法最终成为各种在线抠图程序,最重要的是,它们的操作方法非常简单,完全免费。
比如“Remove.bg”,你只需要上传图片,网站就可以识别主体并去除背景,最后返回一张背景透明的PNG图片。虽然在前景和背景的边界处理上有瑕疵,但是用AI来贴图真的比自己动手方便多了,不是吗?
地址:https://www.remove.bg/
最近,一款名为“ObjectCut”的新型图像处理工具进入了大家的视野。你甚至不需要提前把图片下载到本地,只需输入图片网址,就能得到一张去掉背景的图片。
https://objectcut.com/
使用教程进行演示。
据项目作者介绍,该工具使用的方法基于CVPR 2019论文BASNET:边界感知显著物体检测,并使用一些相关的公共数据集进行训练,包括ECSSD、SOD、dut等。
地址:https://open access . the _ cvpr _ 2019/papers/Qin _ bas net _ boundary-aware _ salient _ object _ detection _ cvpr _ 2019 _ paper.pdf。
无独有偶,前段时间在社交网络上火起来的“隔空移动物体空”神器AR Cut & Paste也是基于BASNet进行显著目标检测和背景去除。无论是盆栽、衣服还是书籍,看到就可以复制,一键操作就可以把任何题材搬进Photoshop变成影像素材。
那么,为什么大家都在用的BASNet这么神奇呢?
巴斯奈特纸的详细说明
深度卷积神经网络已用于显著目标检测,并取得了SOTA的性能。然而,以往的研究大多集中在区域精度,而不是边界质量。
因此,在本文中,加拿大阿尔伯塔大学的研究人员提出了一种预测优化架构BASNet,以及一种新的混合损失,用于边界感知的显著目标检测。秦,本文第一作者,曾就读于山东农业大学和北京大学,现为加拿大阿尔伯塔大学博士后研究员。
具体来说,该架构包括一个密切监督的编码器-解码器网络和一个残差优化模块。它们分别负责显著性预测和显著性图优化。混合损失通过收集二元交叉熵(BCE)、结构相似性(SSIM)和交叉联合(IoU)损失来引导网络学习输入图像和基础事实之间的转换。
在混合损失的帮助下,预测优化架构可以有效地分割显著的目标区域,并准确地预测边界清晰的精细结构。
在6个公开数据集上的实验结果表明,该方法在区域评估和边界评估方面均优于现有的SOTA方法。
如下图2所示,本研究中提出的BASNet由两个模块组成,即预测模块和残差调整模块(RRM)。
预测模块是一个类似U-Net的密集监督编码器-解码器网络,它学习从输入图像预测显著性图。多尺度残差精炼模块通过学习显著图和真实值之间的残差来优化由预测模块获得的显著图。
Net整体架构。
预测模块
受U-Net最后,为了进一步解释BASNet的优越性能,研究人员在下面的图8中展示了与其他七种类似方法的定性比较结果。可见BASNet在不同挑战场景下都能准确分割显著目标。和SegNet[2]的启发,研究人员将突出的目标预测模块设计为编码器-解码器网络,因为这种架构可以捕捉高级别的全局上下文和低级别的细节。为了减少过度拟合,每个解码器级的最后一层由HED[67]启发的真值来监督。编码器部分具有一个输入卷积层和由基本残差块组成的六个阶段。Resnet-34用于输入卷积层和前四个阶段[16]。
优化模块
优化模块(RM)[22,6]通常被设计为残差块,以通过学习显著图和真值之间的残差S_residual来细化预测的粗糙显著图S_coarse,其中:
在提出优化模块之前,研究人员定义了术语“粗糙”。这里大致包括两层意思:一是模糊且有噪声的边界(如下图3(b)中的一维(1D)所示)。另一种情况是不均匀预测的区域概率(如图3(c))。
实际预测的粗略显著图通常包含两种情况(见图3(d))。如下图4(a)所示,基于局部上下文的残差精化模块(RRM LC)最初用于边界优化。
为了优化粗糙显著图中的区域和边界,研究人员提出了一种新的残差优化模块,该模块采用了残差编解码器架构RRM_乌尔斯(如上图2和下图4(c)所示)。
RRM_Ours的主要架构类似于预测模块,但更简单,包括输入层、编码器、桥接器、解码器和输出层。与预测模块不同的是,它的编码器和解码器有四级,每级只有一个卷积层。
混合损失
培训损失定义为所有产出的总和:
为了获得高质量的区域分割和清晰的边界,研究人员提出将(k)定义为混合损失:
其中,(k) _ BCE代表BCE损耗,(k) _ SSIM代表SSIM损耗,(k) _ IoU代表IoU损耗。这三种损失的影响如下图5所示:
实验设置和结果
研究人员在6个常用的基准数据集上对该方法进行了评估,即SOD、ECSSD、DUTS欧姆龙、PASCAL-S、HKU-IS和DUTS。
实验中使用了四个评价指标,即准确率-召回率(PR)曲线、F-measure (F-measure)、平均绝对误差(MAE)和相关的边界F-measure(relax B _β)。
首先,研究人员验证了模型中每个关键组件的有效性。控制变量的研究包括体系结构和损失两部分,并在ECSSD数据集上进行相关实验。
表1显示了控制变量的研究结果。可以看出,BASNet架构在以下配置下实现了最佳性能:
为了进一步解释损失的定性影响,研究人员在不同的损失设置下对BASNet进行了训练,结果如下图7所示。显然,本研究提出的混合损失取得了非常好的定性结果。
此外,为了评估分割显著对象的质量,研究人员在图6中显示了五个最大数据集的PR曲线和F-measure曲线,包括ECSSD、DUTS欧姆龙、PASCAL-S、HKU-IS和DUTS-TE。
如下表2所示,研究人员展示了BASNet和其他15种方法在SOD和ECSSD等6个数据集上的最大F-measure(maxF_β)、相关边界F-measure (relax B _ β)和MAE结果的比较:
[57]