UC伯克利提出视觉场景图加持的组合思维链大模型CCoT，有效提升模型场景交互理解能力

从2023年开始，大模型浪潮彻底席卷了AI学术界和工业界，尤其在诸多人工智能和计算机视觉顶会中，如何将之前通用的视觉backbone与LLMs结合构成全新的多模态大模型（Large Multimodal Models，LMMs）已经成为明星赛道。一些多模态模型甚至已经成为了各种视觉和语言任务的新基线。但是，最近的一些研究表明，即使是目前最为先进的LMM仍然难以捕获复杂视觉场景中的各种对象属性和交互关系。

本文针对这一问题，将场景图（scene graphs，SG）引入到多模态大模型领域，并且基于大模型思维链（Chain-of-Thought，CoT）机制，提出了一种组合思维链（Compositional Chain-of-Thought，CCoT）的方法框架。场景图可以表示视觉场景中各种对象之间的关系和属性，被视为是一种视觉和文本语义之间的桥梁，但是直接SG数据来微调LLM会导致模型出现灾难性遗忘问题，因此作者为本文的CCoT设置了一种零样本思想链提示方法，即以SG表示的形式从LLM中推理出当前场景的组合知识，并将这些知识与原任务内容构成共同上下文送入模型进行推理，作者通过大量的实验表明，CCoT可以在无需微调的情况下有效提升模型在一些通用多模态基准上的性能。

论文题目： Compositional Chain-of-Thought Prompting for Large Multimodal Models
论文链接： https://arxiv.org/abs/2311.17076

一、引言

目前，在一些流行的多模态推理任务，例如视觉问答（VQA）等问题，可以直接使用像LLaVA[1]和InstructBLIP[2]等大型多模态模型来进行推理。但是从一些实验结果可以分析得到，现有的大模型倾向于将图像解析成为“bag of objects”的结构，如下图所示。

假设当前的任务是要求模型识别图像中人的运动状态，从“bag of objects”的角度来看，模型的关注点集中在人和飞盘上，而不在具体的交互关系上，实际上，如果能够明确提示给大模型人与飞盘之间的“投掷”关系，可以让模型更容易识别到运动状态。因此作者尝试将场景图引入到多模态大模型中以提高模型的推理能力，与普通的文字描述相比，场景图数据虽然能够更清晰的表示场景结构，但是其需要大规模的预训练，因而不具备可扩展性。此外，如果直接将场景图嵌入到大模型中训练可能会导致模型出现对原始能力的灾难性遗忘现象。因此本文设计了一种zero-shot的组合思维链方法CCoT，具体来说，CCoT的构建过程可以分为两个步骤：

（1）利用输入图像和任务提示（如视觉问题）来生成场景图，以缓解模型对场景图ground-truth标注的需求。

（2）随后用图像、任务提示和生成的场景图构成整体的提示信息输入到LMM中，使其做出响应，这种方式使得生成的场景图可以描述任何视觉场景，因此整个框架可以适用于各种不同的下游任务中。

二、本文方法

2.1 方法框架

2.2 场景图生成

2.3 下游任务响应生成

三、实验效果

本文选择了两个目前流行的LMM，LLaVA-1.5 和 InstructBLIP作为基线模型，其中LLaVA以一种简单的线性投影结构将输入图像的 CLIP 视觉特征映射到具有 LLM 语言标记的共享嵌入空间中，并且使用了大规模的指令图像数据集微调，可以在复杂的推理场景中进行响应，而本文选用的LLaVA-1.5是LLaVA家族中的最新版本，是目前多种多模态基准的SOTA模型。InstructBLIP则直接使用冻结参数的视觉编码器和LLM，它通过Q-former transformer结构来计算多模态特征。

作者在视觉推理和语言组合等相关任务上进行了实验评估，实验数据集选择Winoground和WHOOPS，前者主要用来测试模型组合视觉理解能力，每个样本包含两个图像和一对相应的图像标题，两个标题在语法上非常相似，但包含一个关键的区别，即对象、关系或两者的语义交换形式。后者则涵盖了解释生成、图像说明、跨模态匹配和组合 VQA等多种视觉推理任务。除此之外，作者还使用通用多模态基准SEEDBench和MMBench对CCoT进行了性能评估。

详细的实验结果如上表所示，在组合视觉理解方面（VL Compositional Benchmarks），CCoT均超越了LLaVA-1.5系列的其他基线方法，并且与SOTA-SGVL的性能相当，需要指出的是，SOTA-SGVL在场景图的ground-truth数据集上进行了微调。在通用多模态基准方面，CCoT可以同时提升LLaVA和InstructBLIP的系列模型的性能，这表明，本文方法具有一定的模型普适能力。

上图展示了CCoT分别在SEEDBench和Winoground基线上对LLaVA和InstructBLIP模型进行改进的具体示例，同时还展示了一些错误案例。如图中左上角的示例中，任务提示为”图中哪两个物体彼此最为接近“，LLaVA-1.5给出的回答是：树枝和一个拿着树枝的男人，而经过CCoT优化后模型给出的回答更加准确：树和女人。

作者还展示了在SEEDBench数据集上的细粒度实验效果，如上表所示，其中的指标分别表示：实例计数IC、场景理解SU、实例标识IId、实例属性IA、实例位置IL、空间关系SR、视觉推理VR、文本理解TU、实例交互IIn。从结果我们可以分析得到，CCoT在绝大多数的子任务上均能对原始的LMM带来额外的多模态信息，以提升模型推理性能。

四、总结

本文从现有多模态大模型难以捕获复杂视觉场景中的对象交互关系的缺陷出发，提出将视觉场景图SG引入到LMM中构成组合思维链框架CCoT。CCoT在提取视觉场景结构方面具有天然优势，作者首先对模型输入场景图构建提示，以zero-shot形式对当前场景进行初步交互探索，随后将场景图与原图像以及目标任务提示构成整体提示送入模型进行推理，以提升模型的组合视觉理解和下游多模态推理能力，而无需使用额外的场景图数据进行微调。本文通过大量的实验表明，CCoT可以轻松嵌入到多种多模态大模型中以提升性能，具有一定的模型通用能力。

参考

[1] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. In NeurIPS, 2023.

[2] Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, and Steven Hoi. Instructblip: Towards general purpose vision-language models with instruction tuning, 2023.

Illustration From IconScout By Pixel True