大语言模型(Large Language Models)已经给自然语言处理(NLP)领域带来了新的革命。在计算机视觉(CV)领域,Facebook近期推出的Segment Anything Model(SAM)工作,在视觉定位(Localization)任务上取得了令人振奋的结果。然而SAM作为一个极致的定位大模型,并没有识别(Recognition)能力,而识别是与定位同等重要的CV基础任务。现有的开放式检测、分割任务尝试同时做好识别和定位,却在两个任务上都不能达到极致。
我们推出视觉感知大模型Recognize Anything Model(RAM),提供最强的图像识别能力,RAM为图像识别领域提供了一种新的范式,使用海量无需人工标注的网络数据,可以训练出泛化能力强大的通用模型,甚至在垂域下可以超越人工标注训练的有监督模型。
项目地址:
https://recognize-anything.github.io/
一、RAM的优势
- 能力强且通用:RAM可识别任意常见类别,支持中英文,精度上其Zero-Shot能力超越了有监督模型,高于CLIP/BLIP等经典多模态模型20+点,并可对标甚至超越Google的商用API;
- 可复现且成本低:RAM完全基于开源数据训练,通过自动化的数据引擎获取了上亿级无须人工标注的高质量图像标签,RAM的基础版本模型只需八卡训练1天,最强版本也仅需八卡训练3天;
- 灵活且用途广:RAM可以直接用在不同的视觉语义理解场景,也可以与定位大模型(如Grounded-SAM)组合,实现一套超强的视觉语义分析工具。
二、RAM的创新点
RAM在算法和数据上相比之前工作均有较大创新:
- 算法层面:充分利用Transformer架构的灵活性,创新性地将多标签识别(Tagging)和看图说话(Captioning)两个任务有机联合,Caption扩展了Tagging的识别范围,而Tagging则可以辅助Caption实现可控的句子生成。并且通过固定的文本编码器在Tagging实现了Open-Set标签类别的能力。
- 数据层面:
- 构建了一套横跨学术(分类、检测、分割)和商业化产品的通用视觉语义标签体系;
- 充分利用网络上的海量的图文对数据,而非少量的人工标注数据;
- 搭建了一套全自动化的数据引擎,源源不断的标注清洗网络上的海量图片,最终获取了上亿级高质量、有价值的图像标签。
RAM可以以较高的准确率自动识别超过6400类的图像标签,横跨学术数据集和商业化产品,并根据其Open-Set能力覆盖任意标签类别:
三、总结与展望
RAM在视觉识别领域展现了一个通用模型泛化到不同场景下的巨大潜力。RAM仍然有很大的提升空间,比如:
- 在一些稀有类别、细粒度分类任务上表现一般;
- 采用开源数据训练可能在有个别数据上出现偏见现象等。
但我们坚信,大模型时代已经到来,视觉任务的统一是大势所趋,希望RAM能推进大模型在视觉领域的发展。
作者:@Coler @信遇的key
本文来源:公众号【Smarter】