CVPR 2023｜小红书提出 OvarNet 模型：开集预测的新SOTA，“万物识别”有了新玩法

在 CVPR2023 上，小红书社区技术团队提出了一项全新任务 —— Open-vocabulary Object Attribute Recognition（面向开放词汇的目标检测与属性识别）。该任务旨在采用单一模型对图像中任何类别目标同时进行定位、分类和属性预测，从而推动目标识别能力向更高的深度和广度发展。

本文提出了 OvarNet 这一全新模型，OvarNet 基于海量多模态数据预训练的视觉语言模型开发，利用可获得的目标检测和属性识别数据进行 Prompt Learning（提示式学习）。同时，为了进一步获得高度可用的 Zero-shot 识别能力，我们从大规模图文数据中提取细粒度的类别和属性表示，进行弱监督学习。此外，我们还采用知识蒸馏的方式简化模型计算复杂度，显著提升 OvarNet 的实用性和时效性。实验结果表明，OvarNet 在开集目标检测和属性识别任务上取得了新 SOTA，证明了识别语义类别和属性对于视觉场景理解的互补性。

论文地址：

https://arxiv.org/abs/2301.09506

一、背景

理解视觉场景中的目标一直以来都是计算机视觉发展的主要驱动力，例如，目标检测任务的目的是在图像中定位出目标并为其分配预定义的语义标签，如“汽车”、“人”或“杯子”。尽管目标检测算法取得了巨大的成功，但是这种任务定义在很大程度上简化了我们对视觉世界的理解，因为一个视觉目标除了语义类别外，还可以从许多其他方面进行描述，例如，一辆公共汽车可以是“黄色”或“黑色”，一件衬衫可以是“条纹”或“无图案”。因此，学习属性可以补充类别级别的识别，从而获得更全面更细粒度的视觉感知。

已有大量的研究表明，理解目标的属性可以极大地促进目标识别和检测，甚至是对在训练集中极少出现或根本没有的视觉目标样例。然而，这些开创性工作中所考虑的问题和今天的标准相去甚远，例如，属性分类通常在以目标为中心的图像上进行训练和评估，而且属性的类别是固定的，有时甚至将目标的类别作为已知的先验。

在论文中，我们考虑在开放词汇场景下同时检测目标并分类属性的任务，即模型仅在一组可见的目标类别和属性上进行训练，但在测试时需要推广到未见过的目标类别和属性，如下图所示。完成这些任务我们观察到三个主要挑战：

首先，在现有的视觉语言模型中，例如 CLIP 和 ALIGN，从图文对中学习得到的表示往往偏向于目标类别，而不是属性，这导致在直接用于属性识别任务时存在特征不对齐的问题；
其次，没有理想的训练数据集同时包含三种类型（目标框、类别和属性）的标注。据我们所知，只有 COCO Attributes 数据集提供这样程度的标注，但它的词汇量相对有限 ( 196 个属性，29 个类别)；
第三，在统一框架下训练这三项任务仍未被探索，具有一定到挑战性，即在开放词汇场景下同时定位（“在哪里”）和描述目标的语义类别和属性（“是什么”）。

为了解决上述问题，我们从一个简单的架构开始，称为 CLIP-Attr。该架构首先通过离线 RPN 从图像中提取目标候选框，然后通过比较属性词嵌入和候选目标的视觉嵌入之间的相似度来实现开放式词汇目标属性识别。为了更好地对齐属性词和候选目标之间的特征，我们在文本编码器端引入可学习的 prompt 向量，并在大量的图文对数据上微调原始 CLIP 模型。

为了进一步提高模型效率，我们提出了 OvarNet，这是一个统一的框架，可以在一次前向传播中进行检测和属性识别。OvarNet 是通过在目标检测和属性预测两个数据集上训练，并通过蒸馏 CLIP-Attr 模型的知识来提高在 novel/unseen 属性的性能。我们提出的 OvarNet 是第一个可扩展的管道，在开放词汇场景下可以同时定位目标，并同时推断视觉属性和目标类别。实验结果表明，尽管只使用弱监督的图文对数据对 OvarNet 进行蒸馏，但它在 VAW、MSCOCO、LSA 和 OVAD 数据集上的表现优于先前的最新技术，展现了对新属性和类别的强大泛化能力。

二、方法

我们的方法主要分为 3 步：首先，利用目标检测数据和属性预测数据在开放词汇场景下训练一个简单的两阶段的方法；然后，通过利用大量的图文对数据进一步微调这个两阶段模型以提高在 novel/unseen 类别和属性上的性能；最后，为了保证泛化性和前传速度，我们基于知识蒸馏的范式设计了一个一阶段的算法。

2.1 两阶段算法

作为社交图谱数据，数据的一致性至关重要。我们需要严格保证数据的最终一致性以及一定场景下的强一致性。为此，我们采取了以下措施：

2.2 图文对数据微调

首先，我们对图文对数据进行预处理，从句子中解析出类别词、属性词、和名词短语；随后，我们使用预训练的 CLIP-Attr 对数据进行伪标签标注；最后为了避免噪声标签的影响，我们通过多实例 NCE 损失进行监督训练。

下图给出了利用海量图文对数据微调 CLIP-Attr 的网络结构图。

2.3 单阶段蒸馏算法

尽管通过预先计算的提议框和上述的 CLIP-Attr 模型可以实现开放词汇目标属性预测，但其推理过程非常耗时，因为每一个裁剪后的区域都会输入到视觉编码器中。在这一部分，我们的目标是解决缓慢的推理速度，端到端地训练一个用于目标检测和属性预测的 Faster-RCNN 类型的模型，称为 OvarNet。图像会被依次经过视觉编码器、类别无关的区域提议网络和开放词汇属性分类网络。

下图是其整体网络框架。为了提高模型处理未知类别和属性的能力，我们进一步加入了 CLIP-Attr 模型的额外知识进行蒸馏。

三、实验

我们考虑的开放词汇目标属性识别包括两个子任务：开放词汇目标检测和对所有检测到的目标进行属性分类。所采用的数据集有 MS-COCO、VAW、LSA 和 OVAD。为了评估模型的性能，在指标评价上我们同时考虑 box-given 和 box-free 的设定，使用 mAP 进行评价。

3.1 COCO 和 VAW 上的结果

3.2 OVAD 和 LSA 上的结果

3.3 一些可视化结果

四、结语

本文探讨了开放词汇目标检测和属性识别问题，即同时定位目标并推断它们的语义类别和视觉属性。我们从一个简单的两阶段框架（ CLIP-Attr ）开始，使用预训练的 CLIP 对目标提议进行分类。为了更好地对齐以目标为中心的视觉特征与属性概念，我们在文本编码器侧使用可学习提示向量。在训练方面，我们采用联合训练策略来利用目标检测和属性预测数据集，并探索一种弱监督训练方案，利用外部图像-文本对增加识别新属性的鲁棒性。最后，为了提高计算效率，我们将 CLIP-Attr 的知识蒸馏到一种 Faster-RCNN 类型的模型中（称为 OvarNet）。在 VAW、MS-COCO、LSA 和 OVAD 等四个不同的基准评估中，我们表明联合训练目标检测和属性预测有助于视觉场景理解，并大大优于现有方法独立处理两个任务的方法，展示了强大的泛化能力，可以处理新的属性和类别。

对内容的充分理解，是实现内容推荐和检索的有效工具。在小红书双列布局场景下，对笔记封面图篇的理解就显得格外重要。采用本文所示的开集目标属性识别能力，我们可以在更细粒度上对封面图进行结构化理解。比如除了可以检测到人物之外，还可以进一步标记人物衣着、姿态等属性，从而在进行推荐和检索时，实现更加智能和个性化的内容推荐。此外，在构建小红书的内容质量体系时，通过对图片的充分解析，我们能够更精确地描述一篇笔记的质量分级，进而实现内容基于质量的差异化分发。

五、作者介绍

陈科研

现博士就读于北京航空航天大学，曾在 Proceedings of the IEEE、TGRS、CVPR 等发表多篇论文。主要研究方向为遥感图像处理，多模态学习。

莱戈

小红书生态算法团队负责人。曾在 CVPR、ICCV、ECCV、TNNLS、TGRS 等会刊发表 10 余篇论文，曾获 YouTube-VOS 视频分割竞赛 Top-3 排名，曾获天池视觉分割大奖赛复赛第 1 名。主要研究方向：目标跟踪、视频分割、多模态分类/检索等。

汤神

小红书智能创作团队负责人。曾在 CVPR、ECCV、ICCV、TIFS、ACMMM 等会议与期刊发表近 20 篇论文。多次刷新 WiderFace 和 FDDB 国际榜单世界记录，ICCV Wider Challenge 人脸检测国际竞赛冠军，ICCV VOT 单目标跟踪冠军，CVPR UG2+亚军。

作者：小红书技术团队

本文来源：公众号【小红书技术REDtech】

CVPR 2023｜小红书提出 OvarNet 模型：开集预测的新SOTA，“万物识别”有了新玩法

一、背景