在自然语言处理和计算机视觉领域,大型视觉语言模型(LVLMs)已经取得了显著成就,尤其是在图像和文本信息的交互处理方面。然而,尽管它们的高效能和多功能性,LVLMs 仍面临一个主要的挑战:对象幻觉。这个问题表现为模型生成与图像中实际不存在的对象相关联的描述,这直接影响了其输出的准确性和可靠性。面对这一挑战,业界探索了多种策略,但仍缺乏一种系统性的解决方案。
在本文中,我们介绍了一种名为视觉对比解码(VCD)的新颖方法,旨在有效缓解 LVLMs 中的对象幻觉问题。与以往方法不同,VCD 通过比较原始和扭曲视觉输入的输出分布,减少了对统计偏差和单模态先验的依赖。我们的实验结果显示,VCD 不仅减少了对象幻觉,还提升了模型在复杂视觉任务中的表现,无需额外训练或依赖外部模型。这一发现不仅为解决 LVLMs 中的对象幻觉问题提供了新视角,也为未来的研究开辟了新道路。
本文的研究成果展示了视觉对比解码(VCD)在多个 LVLM 基准测试中的有效性,并进一步探讨了其在不同场景下的适用性。通过详细的实验和案例分析,我们证明了 VCD 作为一种纠正机制和对比式集成方法的潜力。
论文题目:
Mitigating Object Hallucinations in Large Vision-Language Models through Visual Constrastive Decoding
论文链接:
https://arxiv.org/abs/2311.16922
项目地址:
https://github.com/DAMO-NLP-SG/VCD
一、引言
1.1 背景介绍 & 研究动机
大型视觉语言模型(LVLMs)已成为计算机视觉和自然语言处理交叉领域的核心,由于它们能够从视觉输入生成上下文相关的文本描述,因此在多种应用中发挥重要作用。这些模型以其捕捉和转换复杂视觉模式为特点,将其转化为连贯的语言表达。尽管这些模型取得了进步,但仍存在特定挑战,其中对象幻觉问题尤为突出,影响了 LVLMs 在各领域的可靠性和适用性。
对象幻觉是指 LVLMs 生成与给定图像中真实对象不一致但语义上连贯的文本内容。这一挑战不仅揭示了 LVLMs 的基本问题,例如对统计偏差和单模态先验的过度依赖,而且对 LVLMs 的实际部署产生了直接影响。在需要生成内容精准可靠的应用中,对象幻觉可能导致错误信息、误解和错误决策。因此,解决幻觉问题对于提高 LVLMs 的完整性、可靠性和广泛适用性至关重要。
1.2 主要贡献
为了解决LVLMs中的对象幻觉问题,我们分析了视觉不确定性对对象幻觉的两个主要原因(即统计偏差(statistical bias)和单模态先验(unimodal prior))的影响,并提出了视觉对比解码(VCD),这是一种无需训练的技术,旨在缓解 LVLMs 中的对象幻觉。VCD 基于对原始和扭曲视觉输入的输出分布进行对比的原则,作为一种纠正机制,校准模型对集成 LLMs 的语言先验和 LVLMs 预训练语料库的统计偏差的过度依赖。
我们的实验表明,VCD 在不同 LVLM 家族中一致地提高了多个对象幻觉基准测试的表现(例如,在 POPE 上提高了高达 + 7.4 的 F1 分数,在 MME 上提高了 + 18%),包括 LLAVA-1.5、InstructBLIP 和 Qwen-VL。此外,我们的方法也有助于提高 LVLMs 的视觉感知能力,证明了其在对象幻觉缓解范围之外的潜在适用性。
二、方法
本文提出了视觉对比解码(VCD),一种新颖的方法,用于解决大型视觉语言模型(LVLMs)中的对象幻觉问题以及提升 LVLMs 的视觉感知能力。
2.1 大型视觉语言模型的解码
LVLMs 通过结合文本和视觉输入来生成响应。然而,在解码阶段,由于错误分配概率给与视觉输入不一致的词元,常常出现对象幻觉。研究表明,这个问题的两个主要原因是:
(1)训练数据中固有的统计偏差(statistical biases),
(2)过度依赖集成在解码器中的大型语言模型(LLMs)的语言先验(language priors)。
2.2 视觉不确定性会放大幻觉
视觉输入的准确性对于 LVLMs 正确编码视觉特征和生成忠实输出至关重要。我们采用最基本的方法——向原始图像覆盖高斯噪声——来引入视觉不确定性。我们的实验表明,视觉不确定性会强化语言模型对语言先验的依赖,并增强由于预训练数据集中存在的肤浅对象相关性而导致的偏差,从而加剧对象幻觉。
2.3 视觉对比解码
基于上述观察,我们引入视觉对比解码(VCD)。VCD 通过对比从原始和扭曲的视觉输入生成的模型输出来对抗 LVLMs 中的统计偏差和语言先验。这一过程无需额外训练或外部预训练模型,使 VCD 成为一个高效且成本效益的解决方案。
具体来说,对于给定的文本和视觉输入,模型生成两个不同的输出分布:一个基于原始视觉输入,另一个基于经过预定义扭曲(例如高斯噪声)的视觉输入。然后,通过利用两个初始获得的分布之间的差异,计算出一个新的对比概率分布。这个新的对比分布可以应用不同的采样策略,如 nucleus sampling 和 beam search。
2.4 自适应合理性约束
在 VCD 的对比分布形成中,可能会出现一个挑战,即错误地惩罚由扭曲视觉输入影响的模型整体输出行为。为了解决这个问题,我们实施了一个基于原始视觉输入的输出分布信心水平的自适应合理性约束。这确保了当模型对其与原始输入相关的输出非常有信心时,候选池被简化,通常保留概率高的单一输出词元。这种方法有效地中和了 VCD 可能带来的不利影响,防止它无意中促进不合理词元的生成,同时保持生成内容的完整性。
综上所述,VCD 不仅是一个纠正机制,减少幻觉,而且也是一种对比式集成方法,区分了两种概率分布的对数。通过结合视觉对比解码和自适应合理性约束,有效地缓解了 LVLMs 中的对象幻觉问题,同时保持了生成内容的准确性和可靠性。
三、实验
本节详细介绍了我们对提出的视觉对比解码(VCD)在不同大型视觉语言模型(LVLMs)中的评估。
3.1 实验设置
3.1.1 数据集和评估指标
- POPE:一种评估对象幻觉的方法。它要求 LVLMs 回答特定图像中是否存在特定对象。该基准包括三种采样设置:随机、流行和对抗性,每种设置在构建负样本时各有特点。
- MME:旨在全面评估 LVLMs,包括多个与感知相关的子任务和四个认知焦点任务。
- LLaVA-Bench:包含多种场景下的 24 张图片和 60 个问题,用于评估 LVLMs 在更具挑战性的任务和新领域的适应性。
3.1.2 LVLM基线模型
我们在三个最先进的 LVLMs 上评估了 VCD 的有效性,包括 LLaVA-1.5,InstructBLIP 和 Qwen-VL。
3.1.3 实验细节
在实验中,我们设置了一些特定的参数值,并使用直接采样作为基线解码策略,以进行一致的比较分析。
3.2 实验结果
3.2.1 POPE结果
VCD 在不同采样设置下的性能一致优于基线结果,这表明其在减少 LVLMs 中的对象幻觉方面发挥了关键作用。
3.2.2 MME幻觉子集结果
在 MME 子集评估中,VCD 在处理对象级幻觉方面对所有模型均有统一提升。同时,VCD 对属性级“颜色”得分也有整体积极影响。
3.2.3 MME全集结果
VCD 在感知任务中表现出一致的增强,同时保持了 LVLMs 的原有识别能力。
3.3 进一步分析
3.3.1 视觉不确定性对幻觉的影响
我们进一步研究了视觉不确定性增加时 LLaVA-1.5 的对象幻觉变化。结果表明,随着视觉不确定性的增大,对象幻觉问题将变得更加严重。
3.3.2 GPT-4V开放式生成评估
我们还将分析扩展到 LLaVA-Bench 上的开放式图片描述生成任务,并使用最新发布的 GPT-4V 进行评估。结果表明,VCD 在所有场景中对图片描述的准确度和细节程度都有一致的提升。
3.3.3 LLaVA-Bench案例研究
我们展示了两个案例研究,说明了在相同提示和图像下,常规解码如何产生由预训练期间固有的统计偏差和语言先验影响的对象幻觉。相比之下,VCD 的实施显著缓解了这些幻觉问题,同时保持了输出文本的连贯性和信息性。
这些实验结果表明,VCD 在减少 LVLMs 中对象幻觉方面具有显著效果,且对提高 LVLMs 的视觉感知能力有积极影响。我们将更多的实验结果(比如超参数的消融实验,VCD 在更大的 LVLMs 上的效果,VCD 在其他解码策略上的效果等)放在了论文补充材料中,如果您对此感兴趣,可以查看论文原文。
四、结论与未来工作
本文针对大型视觉语言模型(LVLMs)中的对象幻觉问题进行了深入研究。我们分析了视觉不确定性如何影响幻觉,特别是从统计偏差和语言先验的角度。研究发现,视觉不确定性会放大这些因素,导致更多的幻觉。
基于此,我们引入了视觉对比解码(VCD),这是一种新颖的无需训练的方法,它通过对比分布来校准模型的输出,无需使用外部工具。我们在多个基准测试和 LVLM 家族上进行的广泛实验证实了 VCD 在减少幻觉方面的有效性,并展示了其增强 LVLMs 整体感知能力的潜力。
尽管本研究采用了基本的高斯噪声方法来引入视觉不确定性,但更细致的技术,如对象级模糊,可能会带来更好的结果。此外,我们的研究仅限于处理图像和文本的 LVLMs,并未涵盖其在视频理解等新兴应用领域的使用。未来的研究方向包括探索不同的图像扭曲方法,并将视觉对比解码(VCD)框架扩展到更广泛的 LVLMs。
参考文献
[1] Yifan Li, Yifan Du, Kun Zhou, Jinpeng Wang, Wayne Xin Zhao, and Ji-Rong Wen. Evaluating object hallucination in large vision-language models. EMNLP, 2023.
[2] Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin,Zhenyu Qiu, Wei Lin, Jinrui Yang, Xiawu Zheng, et al. Mme: A comprehensive evaluation benchmark for multimodal large language models. arXiv preprint arXiv:2306.13394, 2023.
[3] LLaVA-Bench,
https://huggingface.co/datasets/liuhaotian/llava-bench-in-the-wild.
[4] Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023.
[5] Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, and Steven Hoi. Instructblip: Towards general-purpose vision language models with instruction tuning. arXiv preprint arXiv:2306.04387, 2023.
[6] Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning. arXiv preprint arXiv:2310.03744, 2023.
[7] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. NIPS, 2023.
[8] GPT4-V, https://openai.com/research/gpt-4v-system-card
Illustration From IconScout By Pablo Stanley
-The End-