[NMS系列] Softer-NMS1、研究背景 论文: https://arxiv.org/pdf/1809.0854
1、研究背景
NMS通过类别预测分数
和bbox
对所有的框进行后处理
,最终决定目标检测模型
的预测结果
。在实际的后处理中,NMS
默认类别分数高的框
,其位置预测置信度
也比较高。因为每一次NMS
都是从类别预测分数高
的框开始,当后续分数低的框
与当前框的iou
达到一定阈值
后,分数低的框
就会被抑制
。其实这种默认存在问题,因为类别分数高
的框,其位置置信度
可能比较低。因为对于类别分数高的框,这个框以更大的可能性覆盖了目标的主要部分,甚至囊括了目标之外的区域, 如下图所示。
从图中(a)可以看出,类别预测分数为1的以
更大的框囊括了目标
,位置信息预测不够精确
;而类别预测分数为0.35的框,只是截取目标部分区域
,部分位置比较精确
。那么如何利用现有框的信息提高模型的位置精度呢?这就是softer NMS
要解决的问题。
其实对于(a)中,类别预测分数为0.35的框,现有的技术应该可以提高它的类别分数。比如bboxAssigner
,对于与groundTruth
的IOU
达到一定阈值的候选框,其类别都设为前景类别,这样就增加了目标不完整时的样本,强迫模型通过目标的多个方面
识别目标,在一定的程度上可以解决目标不完整
时类别分数预测低
的问题。
2、softerNMS基本原理
2.1 假设
Softer NMS
方法对预测边框
与真实物体
做了两个分布假设:
- 真实物体的分布是
狄拉克delta
分布,即标准方差为0
的高斯分布的极限 - 预测边框的分布满足
高斯分布
基于这两个假设,Softer NMS提出了一种基于KL(Kullback- Leibler)散度的边框回归损失函数KL loss。KL散度是用来衡量两个概率分布
的非对称性衡量,KL散度
越接近于0
,则两个概率分布越相似
。
具体到边框上,KL Loss是最小化预测边框的高斯分布与真实物体的狄克拉分布之间的KL散度。即预测边框分布越接近于真实物体分布,损失越小
2.2 网络结构
softer NMS要解决的问题是提高目标预测框的位置精度。为了解决这个问题,作者设计了新的网络结构,对所有框不仅预测位置坐标,还预测位置方差,如下图所示。
图中上半部为原始的
FastRCNN
方法的预测,下半部的网络为SofterNMS
提出的方法。可以看到,SofterNMS
在原FastRCNN
预测的基础上,增加了一个标准差预测分支
,从而形成边框的高斯分布
,与边框的预测一起可以求得KL损失
.
2.3 公式
其中Box分支预测box坐标x,Box std分支预测x的不确定度,也就是方差 σ 。为了同时评估坐标以及方差,作者使用高斯分布表示预测box坐标以及方差:
边框的标准差可以被看做边框的
位置置信度
,因此Softer NMS利用该标准差
也改善了NMS
过程。具体过程大体与NMS相同,只不过利用标准差改善了高得分边框的位置坐标
,从而使其更为精准
。
总体上,Softer NMS通过提出的KL Loss与加权平均的NMS策略,在多个数据集上有效提升了检测边框的位置精度。
2、参考文献
转载自:https://juejin.cn/post/7270822762721722425