YOLO - 霖的博客

YOLO v1#

算法流程#

将图像分成 $S \times S$ 个网格 (Grid Cell) ，每个网格负责预测中心位置落在该网格中的目标。
每个网格包含 $B$ 个边界框 (Bounding Box, bbox) ，每个边界框框包含 $C$ 个类别的分数、1个置信度 (Confidence)。

损失函数#

\begin{aligned} &\left. \begin{aligned} &\lambda_{coord}\sum_{i=0}^{S^{2}}\sum_{j=0}^{B}\mathbb{1}_{ij}^{obj}\left[\left(x_{i}-\hat{x}_{i}\right)^{2}+\left(y_{i}-\hat{y}_{i}\right)^{2}\right] \\ +&\lambda_{coord}\sum_{i=0}^{S^2}\sum_{j=0}^B\mathbb{1}_{ij}^{obj}\left[\left(\sqrt{w_i}-\sqrt{\hat{w}_i}\right)^2+\left(\sqrt{h_i}-\sqrt{\hat{h}_i}\right)^2\right] \end{aligned} \right\} &\text{Bounding Box Loss} \\ &\left. \begin{aligned} +&\sum_{i=0}^{S^{2}}\sum_{j=0}^{B}\mathbb{1}_{ij}^{obj}\left(C_{i}-\hat{C}_{i}\right)^{2} &\text{Confidence Loss} \\ +&\lambda_{noobj}\sum_{i=0}^{S^{2}}\sum_{j=0}^{B}\mathbb{1}_{ij}^{noobj}\left(C_{i}-\hat{C}_{i}\right)^{2} \end{aligned} \right\} &\text{Confidence Loss} \\ &\left. +\sum_{i=0}^{S^{2}}1_{i}^{obj}\sum_{c\in{classes}}\left(p_{i}(c)-\hat{p}_{i}(c)\right)^{2} \right\} &\text{Classification Loss} \end{aligned}

YOLO v2#

主要改进#

批量归一化 (Batch Normalization)。引入批量归一化能明显改善模型的收敛性，在不过拟合的情况下可以去除 Dropout 。
更高分辨率的分类器。大多检测方法都使用在ImageNet上预先训练的分类器作为预训练模型，而这些模型的输入尺寸为 224x224。V2 中，将分类器的输入尺寸调至 448x448，从而获得更高分辨率的分类结果。
使用锚框 (Anchor Boxes) 。在 CNN 提取的特征图 (feature map) 上生成一组先验框，这些先验框的尺寸和位置都是预先定义的，在训练过程中，通过计算锚框和真实标注框的 IOU 来判断要预测的物体，通过预测偏移量微调锚框的位置和大小。
K-means 聚类确定 Anchor 初始值。在训练集的边界框上运行K-means聚类训练bounding boxes，可以自动找到更好的boxes宽高维度。
直接的位置预测。不预测锚框的偏移量，而是使用 Sigmoid 函数来预测相对于网格位置的坐标，限制了坐标的预测范围在当前网格内。
细粒度特征 (Fine-Grained Features)。直通层通过将相邻的特征堆叠到不同的通道而非空间位置，从而将低分辨率和高分辨率的特征进行连接，这样操作能够获得细粒度特征，对小尺寸的目标有更好的检测结果。
多尺度预测 (Multi-Scale Prediction)。该模型只使用了卷积和池化层，所以可以动态调整输入大小。每隔几次迭代就改变网络，从而提高模型的泛化性。