Table of Contents

YOLO: You Only Look Once #

本文是教学视频【精读AI论文】YOLO V1目标检测，看我就够了的学习笔记.

YOLO是什么 #

Yolo是用来解决计算机视觉领域中目标检测问题的机器学习模型.

分类, 分类 + 定位, 目标检测, 分割

分类, 语义分割, 目标检测, 实例分割

更清晰的例子, 可以看出实例分割是最难的

YOLO属于单阶段模型

YOLO V1网络结构

YOLO V1预测阶段

把图片转化成正方形, 切割成 $s × s$ 个Grid Cell, 对于每个Grid Cell, 会生成 $B$ 个中心点在其内部的矩形框, 预测如果拥有物体, 物体是某一类的概率 , 概率越大框越粗. 根据物体类别划分Grid Cell, 根据置信度决定矩形框粗细, 两者结合最后处理得到预测结果.

从诸多矩形框中得到最终结果

把模型中7×7×30的向量转化为最终预测结果

7×7×30向量结构

$7 × 7 × 30$ 向量的含义:

$7 × 7$ 个Grid Cell
$30 = 2 × 5 + 20$ :
- $2$ 个预测矩形框, 每个矩形框拥有 $5$ 个参数: 中心点的归一化横纵坐标 $x, y$, 矩形框的归一化宽和高 $w, h$ , 预测框置信度 $P(obj\ in\ box))$;
- $20$ 个类别, 分别为预测各个类别的条件概率 $P(obj\ is\ class_i|obj\ in\ box)$

把$P(obj\ is\ class_i|obj\ in\ box)$ 与 $P(obj\ in\ box)) $ 相乘, 得到 $P(obj\ is\ class_i)$ , 一共获得 $7 × 7 × 2$ 个 $20$ 维向量.

对于上一步获得的 $7 × 7 × 2$ 个 $20$ 维向量, 我们对于其第一维设定一个抹零的阈值, 抹零后进行排序, 再进行NMS处理.