目标检测(Object Detection)是计算机视觉领域的基本任务之一,学术界已有将近二十年的研究历史。近些年随着深度学习技术的火热发展,目标检测算法也从基于手工特征的传统算法转向了基于深度神经网络的检测技术。从最初 2013 年提出的 R-CNN、OverFeat,到后面的 Fast/Faster R-CNN、SSD、YOLO 系列,再到 2018 年最近的 Pelee。短短不到五年时间,基于深度学习的目标检测技术,在网络结构上,从 two stage 到 one stage,从 bottom-up only 到 Top-Down,从 single scale network 到 feature pyramid network,从面向 PC 端到面向手机端,都涌现出许多好的算法技术,这些算法在开放目标检测数据集上的检测效果和性能都很出色。
图 1
图 2
图 3
图 4
图 5
图 6
在位置框回归阶段仿照分类的思路,将特征通道数组合为 4 x k x k 的形式,其中每个小块的位置都对应了相应的通道对其进行位置回归的特征提取。最后将不同小块位置的四个回归值融合之后即可得到位置回归的响应,进行后续的位置回归工作。
图 7
图 8
图 9
图 10
图 11
图 12
图 13:RoIPooling
图 14:RoIAlign
图 15
其中
和
与Faster R-CNN中的相似,所以我们具体看
损失函数。
图 16
图 17
图 18
图 19
图 20
其中
、
、
分别代表 student network 预测的 objectness、class probability 以及 bbox 坐标,
、
、
则代表了真实值。
困难 2 是对于检测算法来说,如果不做 NMS,直接将 teacher network 的预测 RoI 输出给 student network,会因为某些 box 有很多的相关预测 RoI 而导致这些 box 容易过拟合。
图 21
图 22
图 23
图 24
图 25
图 26
图 27
图 28
图 29
图 30
图 31
以第一个链接结构为例,该结构的输入一半为上一层的降采样的 Feature Map,其中通道的改变由 1*1 的卷积完成。另一半为这个尺度学习到的 feature。经过 Concat 后的输出是三个部分:1. 经过 1*1 卷积和 3*3 卷积作为下一层的输入;2. 直接降采样并修改通道作为下一层的输入;3.输入这一层的 feature 到最后的检测任务。
算法效果
(未完待续)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至123456@qq.com 举报,一经查实,本站将立刻删除。