MIT提出大语言模型跨界视觉领域新范式LAMPP，利用语言模型概率先验解决视觉问题

最近一段时间，随着ChatGPT的一炮走红，其背后的基础架构，大型语言模型（LLMs）在AI界可谓是风光无限，各行各业对大模型的讨论热度一直高涨不下。但是大模型只能局限在自然语言处理领域吗，在计算机视觉领域、在同样具有巨大潜力的AIGC领域，应该马上也会有相应量级的划时代模型发布。

论文链接：

https://arxiv.org/abs/2302.02801

本文介绍一篇将大模型作为概率先验信息引入到视觉感知和行为认知领域的工作，本文来自MIT CSAIL。本文作者指出现有的大型语言模型在海量的文本语料库上预训练，已经可以对真实世界环境和动作序列的丰富分布信息进行编码。这些信息在目前的语言处理任务（如问题回答和指令生成）的方法中起着关键作用。本文提出了一种非常巧妙的方法LAMPP，利用大模型完成非语言为主体的感知和控制任务，通过将标签和决策转换为概率图形模型的推理过程，LAMPP对大模型中的标签、决策和参数的先验分布进行了参数化，使其以一种确定的方式整合不确定的观察信息和不完整的背景知识。LAMPP目前可以直接应用于语义分割、视觉导航和行为识别等视觉任务，也取得了非常好的效果。

一、介绍

常识性先验对于在现实世界环境中视觉任务的决策非常重要，例如让机器对给下图(b)中的场景进行识别或理解，一旦机器将几个位于前景区域且突出的物体（如浴缸）识别出来，基本上就可以断定这张图像描述的是一个浴室场景。这种与物体相关性明确挂钩的场景先验也有助于机器去识别一些更具有挑战性的目标，例如浴室场景中出现的窗帘是浴帘，而不是普通卧室里的窗帘。再如浴室墙上出现的规则型目标是一面镜子，而不是一幅画。

这种关于目标关系的视觉先验可以帮助模型在一些陌生的场景中实现视觉导航等操作，实际上，这种先验与人类在推理对象分类和对书面文本进行解释时所采用的手段相类似。传统的机器学习模型从特定于任务的数据集中获取有关标签和决策的先验分布的信息，但是当训练数据有偏差时（例如长尾分布），就有可能导致模型决策失败，尤其是在异常或分布不均匀的输入上，在这种情况时应该如何赋予模型更通用和更灵活的先验知识呢？

鉴于最近语言模型的迅猛发展，本文作者提出，能否借助现有的LLMs的分布来作为视觉任务的一般先验呢。作者分析到，与语义分割和场景导航等场景不一样，自然语言理解领域中有很多大规模的文本语料库，这些语料库已经涵盖了人类经验的各方各面，经过这些数据训练得到的LLMs对其中的大部分信息进行了预编码，例如盘子通常位于厨房和餐厅，这些信息往往比小型特定任务数据集所能提供的多样性和保真度更高。本文作者非常看重LLMs模型的这种能力，他们将其作为可以与现有领域模型整合的概率背景知识的来源，通过LLMs来对目标任务生成标签、决策或模型参数的先验分布，并且将它们与特定领域的生成模型或似然函数结合起来，实现"自上而下"的背景知识与"自下而上"的特定任务预测器的自然结合。本文作者将这种建模方式称为LAMPP（语言模型作为概率预测先验）。LAMPP可以灵活的应用到现有的视觉感知推理任务中，例如语义图像分割、机器人视觉导航和视频动作理解。LAMPP在这些任务上的成功证明了这样一个假设，即语言完全可以作为现实场景决策的一个有用的背景知识来源，而且这种背景知识的不确定性可以与非语言问题领域的不确定性有效地结合起来。

二、LAMPP模型构建

2.1 模型的预测

2.2 模型的学习

三、实验设置

3.1 LAMPP用于语义分割

作者首先将LAMPP部署在语义分割任务中，直观地说，一个自下而上的视觉分割头很难整合全局的的图像上下文，也很难对远处物体的标签之间的关联性进行建模。因此在语义分割任务中可以融合LLMs对场景的整体结构编码得到的常识性信息，这些信息可以与容易预测的物体标签结合起来，以帮助模型进行更具挑战性的预测。

评价指标为ID和OOD的所有对象类别的预测和真实对象分割之间的平均交集 (mIoU)，如上表所示。可以看到，在ID和OOD情况下，LAMPP都能对baseline模型进行改进。

3.2 LAMPP用于视觉导航

实验结果如上表所示，可以看出，LAMPP在总体和对象方面的成功率方面远远优于基本策略和假设统一先验的策略。

3.3 LAMPP用于行为识别和分割

作者使用CrossTask数据集进行评估，该数据集包含描述任务（例如，制作煎饼）的教学视频，目标是将视频按照时段分割成不同的区域，并用描述的相应动作（例如，添加鸡蛋）标注每个区域。评价指标使用步骤召回率，即真实动作序列中的动作也在模型预测的动作序列中的百分比。

实验结果如上表所示，LAMPP在Zero-Shot（ZS）和OOD两种实验设置上相比baseline模型都有提升。

四、总结

本文提出了一种将LLMs应用到常规视觉任务中的通用框架LAMPP，LAMPP通过从语言模型中提取概率先验，将语言的背景知识整合到决策问题中。LAMPP可以改善模型在图像语义分割、视觉导航和视频动作识别等任务中的零散、分布外和分布内设置的泛化能力，其使不确定的环境感知、含噪的常识信息以及领域内的先验信息之间的组合成为可能，并且证明了来自大型语言模型中的非结构化的知识可以自然地整合到结构化的概率方法中进行学习或推理。LAMPP的有效性在很大程度上取决于用于生成先验的LLMs的质量。现在看来，不断发展LLMs的推理和认知效果，已经不光光是自然语言处理社区的需求了，改进LLMs的知识表征将有助于包括视觉任务在内的整个人工智能社区的进步。

参考文献

[1] Brown, Sutskever, I., and Amodei, D. Language models are few-shot learners. In Larochelle, H., Ranzato, M., Hadsell, R., Balcan, M., and Lin, H. (eds.), Advances in Neural Information Processing Systems, volume 33, pp. 1877–1901. Curran Associates, Inc., 2020.

[2] Jiang, J., Zheng, L., Luo, F., and Zhang, Z. Rednet: Residual encoder-decoder network for indoor rgb-d semantic segmentation, 2018.

作者：seven_
Illustration by WOOBRO LTD from IconScout