深度学习图像标记原理(深度学习图像目标检测必须掌握的基本概念与知识)
传统目标检测方法手动设计特征,下面我们就来说一说关于深度学习图像标记原理?我们一起去了解并探讨一下这个问题吧!
深度学习图像标记原理
传统目标检测方法
手动设计特征
滑动窗口
使用传统分类器
多步骤实现
准确度和实时性差
深度学习目标检测方法
深度网络学习特征
Proposal或者直接回归
深度网络分类
端到端
准确度高且实时性好
目标检测算法分类
主要分为One stage和Two stage两大类:
One stage:
步骤:特征提取->分类->定位/回归。
成员:YOLOv1、SSD、YOLOv2、RetinaNet、YOLOv3
特点:准确度低,速度快。
Two stage:
步骤:特征提取->生成RP->分类->定位/回归
成员:Fast R-CNN、Faster R-CNN
特点:准确度高,速度慢。
Selective Search
即选择性搜索。
使用具有不同不变性质的各种颜色空间
使用不同的相似性度量
使用不同的初始化区域
Bounding-Box regression
边框回归。 生成的proposal与groundtruth的两个框不一致,我们想通过某种方法使得产生的另个一个框介于两者之间,更接近与真值。一般遇到的bbox,即指Bounding-Box。
ROI
region of interest,感兴趣区域。通俗的可以理解为使用LabelImg标注的区域。
IoU
Intersection-over-Union,交并比。产生的候选框和原标记框的交叠率,即面积的交集和并集的比值。完美情况为1。是一个评价函数。
NMS
Non-maximum suppression, 非极大值抑制算法。本质是搜索局部极大值,抑制非极大值元素,在目标检测中通过选取邻域里分数最高的窗口,同时抑制分数低的窗口去消除多余的框,找到最佳的物体检测位置。现在一般使用Soft-NMS。
Anchors
对于该图像的每一个位置,考虑9个可能的候选窗口:三种面积三种比例。这些候选窗口称为anchors。下图示出51*39个anchor中心,以及9种anchor示例。
RPN
Region Proposal Network ,如同一个黑盒子,输入一个任意尺度的图片,输出一系列的矩形object proposals。区域生成网络,在Faster-RNN中使用。
RPN网络结构
步骤:
将图片输入到VGG或ZF的可共享的卷积层中,得到最后可共享的卷积层的feature map。
小网络继续卷积feature map;;获得原图的锚点(anchor)
将卷积的结果和锚点分别输入到两个小的1*1的网络中reg(回归,求目标框的位置)和cls(分类,确定该框中是不是目标)
训练集标记好了每个框的位置,和reg输出的框的位置比较,用梯度下降来训练网络。
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com