文献链接
罗浩, 姜伟, 范星, 张思朋. 基于深度学习的行人重识别研究进展. 自动化学报, 2019,45 (11):2032-2049

  按照训练损失可以分为基于表征学习和度量学习, 根据特征是否考虑局部特征可以分为基于全局特征和基于局部特征, 根据数据不同可以分为基于单帧图像和基于视频序列的方法

基于表征学习的方法

  基于表征学习 (Representation learning) 的方法是一类非常常用的行人重识别方法. 虽然行人重识别的最终目标是为了学习出两张图片之间的相似度, 但是表征学习的方法并没有直接在训练网络的时候考虑图片间的相似度, 而把行人重识别任务当做分类 (Classiflcation) 问题或者验证(Veriflcation) 问题来看待. 这类方法的特点就是网络的最后一层全连接 (Fully connected, FC) 层输出的并不是最终使用的图像特征向量, 而是经过一个Softmax 激活函数来计算表征学习损失, 前一层 (倒数第二层) FC 层通常为特征向量层.

  分类 问题是指利用行人的 ID 或者属性等作为训练标签来训练模型, 每次只需要输入一张图片;分类网络常用的两种损失分别是行人 ID 损失(Identiflcation loss) 和属性损失 (Attribute loss).文献将每一个行人当做分类问题的一个类别, 用行人的 ID 作为训练数据的标签来训练 CNN网络, 这个网络损失被称为ID 损失, 而这种网络被称为 IDE (ID embedding) 网络,IDE是行人重识别领域非常重要的 baseline 基准.后来部分研究者认为, 光靠行人的 ID 信息不足以学习出一个泛化能力足够强的模型. 因此, 他们利用了额外标注的行人图片的属性信息, 例如性别、 头发、 衣着等属性, 通过引入行人属性标签计算属性损失. 训练好的网络不但要准确地预测出行人 ID, 还要预测出各项行人属性, 这大大增加了网络的泛化能力, 多数论文也显示这种方法是有效的.

  验证 问题是指输入一对 (两张) 行人图片, 让网络来学习这两张图片是否属于同一个行人.损失函数一般为行人ID损失和属性损失.验证网络每次需要输入两张图片, 这两张图片经过一个共享的 CNN 网络, 将网络输出的两个特征向量融合起来输入到一个只有两个神经元的 FC 层, 来预测这两幅图片是否属于同一个行人. 因此, 验证网络本质上是一个多输入单输出的二分类网络.通常,仅仅使用验证损失训练网络是非常低效的, 所以验证损失会与 ID 损失一起使用来训练网络.

基于度量学习的方法

  度量学习 (Metric learning) 是广泛用于图像检索领域的一种方法. 不同于表征学习, 度量学习旨在通过网络学习出两张图片的相似度. 在行人重识别问题上, 表现为同一行人的不同图片间的相似度大于不同行人的不同图片.定义一个映射,使图片从原始域映射到特征域,之后再定义一个距离度量函数,计算两个特征向量的距离,最后通过最小化网络的度量损失, 来寻找一个最优的映射.使得相同行人两张图片 (正样本对) 的距离尽可能小, 不同行人两张图片 (负样本对) 的距离尽可能大. 而这个映射 f(x), 就是我们训练得到的深度卷积网络.常用的损失方法有对比损失,三元组损失和四元组损失.
  度量学习可以近似看作为样本在特征空间进行聚类, 表征学习可以近似看作为学习样本在特征空间的分界面. 正样本距离拉近的过程使得类内距离缩小, 负样本距离推开的过程使得类间距离增大, 最终收敛时样本在特征空间呈现聚类效应. 度量学习和表征学习相比, 优势在于网络末尾不需要接一个分类的全连接层, 因此对于训练集的行人 ID 数量并不敏感, 可以应用于训练超大规模数据集的网络. 总体而言, 度量学习比表征学习使用的更加广泛, 性能表现也略微优于表征学习. 但是目前行人重识别的数据集规模还依然有限, 表征学习的方法也依然得到使用, 而同时融合度量学习和表征学习训练网络的思路也在逐渐变得流行.

基于局部特征的方法

  上文介绍的两类方法是从损失函数的角度进行分类的,从图像特征的角度看,又可分为基于全局特征和基于局部特征的方法.全局特征比较简单,是指让网络对整幅图像提取一个特征,不考虑局部特征.局部特征是指手动或者自动地让网络去关注关键的局部区域, 然后提取这些区域的局部特征. 常用的提取局部特征的思路主要有图像切块、 利用骨架关键点定位以及行人前景分割等.

基于视频序列的方法

  这类方法考虑了图像的内容信息, 还会考虑: 1) 帧与帧之间的运动信息; 2) 更好的特征融合; 3) 对图像帧进行质量判断等. 总体来说, 基于序列的方法核心思想为通过融合更多的信息来解决图像噪声较大、 背景复杂等一系列质量不佳的问题.一种思路是融合图像内容信息和运动信息,如下图所示;另一种思路是对图像帧进行质量判断,保留更多的高质量图像的特征.


本博客所有文章除特别声明外,均采用 CC BY-SA 3.0协议 。转载请注明出处!

专业词汇 上一篇
The Challenge Of ReID 下一篇