重磅！CV或迎来GPT-3时刻！

「这下 CV 是真不存在了。< 快跑 >」这是知乎网友对于一篇 Meta 新论文的评价。

如标题所述，这篇论文只做了一件事情：（零样本）分割一切。类似 GPT-4 已经做到的「回答一切」。

Meta 表示，这是第一个致力于图像分割的基础模型。自此，CV 也走上了「做一个统一某个（某些？全部？）任务的全能模型」的道路。

在此之前，分割作为计算机视觉的核心任务，已经得到广泛应用。但是，为特定任务创建准确的分割模型通常需要技术专家进行高度专业化的工作，此外，该项任务还需要大量的领域标注数据，种种因素限制了图像分割的进一步发展。

Meta 在论文中发布的新模型名叫 Segment Anything Model (SAM) 。他们在博客中介绍说，「SAM 已经学会了关于物体的一般概念，并且它可以为任何图像或视频中的任何物体生成 mask，甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用，可以涵盖广泛的用例，并且可以在新的图像『领域』上即开即用，无需额外的训练。」在深度学习领域，这种能力通常被称为零样本迁移，这也是 GPT-4 震惊世人的一大原因。

论文地址：https://arxiv.org/abs/2304.02643
项目地址：https://github.com/facebookresearch/segment-anything
Demo 地址：https://segment-anything.com/

除了模型，Meta 还发布了一个图像注释数据集 Segment Anything 1-Billion (SA-1B)，据称这是有史以来最大的分割数据集。该数据集可用于研究目的，并且 Segment Anything Model 在开放许可 (Apache 2.0) 下可用。

我们先来看看效果。如下面动图所示，SAM 能很好的自动分割图像中的所有内容：

SAM 还能根据提示词进行图像分割。例如输入 Cat 这个提示词，SAM 会在照片中的几只猫周围绘制框并实现分割：

SAM 还能用交互式点和框的方式进行提示：

此外，SAM 还能为不明确的提示生成多个有效掩码：

英伟达人工智能科学家 Jim Fan 表示：「对于 Meta 的这项研究，我认为是计算机视觉领域的 GPT-3 时刻之一。它已经了解了物体的一般概念，即使对于未知对象、不熟悉的场景（例如水下图像）和模棱两可的情况下也能进行很好的图像分割。最重要的是，模型和数据都是开源的。恕我直言，Segment-Anything 已经把所有事情（分割）都做的很好了。」

推特地址：https://twitter.com/DrJimFan/status/1643647849824161792

还有网友表示，NLP 领域的 Prompt 范式，已经开始延展到 CV 领域了，可以预想，今年这类范式在学术界将迎来一次爆发。

更是有网友表示蚌不住了，SAM 一出，CV 是真的不存在了。投稿 ICCV 的要小心了。

不过，也有人表示，该模型在生产环境下的测试并不理想。或许，这个老大难问题的解决仍需时日？

方法介绍

此前解决分割问题大致有两种方法。第一种是交互式分割，该方法允许分割任何类别的对象，但需要一个人通过迭代细化掩码来指导该方法。第二种，自动分割，允许分割提前定义的特定对象类别（例如，猫或椅子），但需要大量的手动注释对象来训练（例如，数千甚至数万个分割猫的例子）。这两种方法都没有提供通用的、全自动的分割方法。

SAM 很好的概括了这两种方法。它是一个单一的模型，可以轻松地执行交互式分割和自动分割。该模型的可提示界面允许用户以灵活的方式使用它，只需为模型设计正确的提示（点击、boxes、文本等），就可以完成范围广泛的分割任务。

总而言之，这些功能使 SAM 能够泛化到新任务和新领域。这种灵活性在图像分割领域尚属首创。

Meta 表示，他们受到语言模型中提示的启发，因而其训练完成的 SAM 可以为任何提示返回有效的分割掩码，其中提示可以是前景、背景点、粗框或掩码、自由格式文本，或者说能指示图像中要分割内容的任何信息。而有效掩码的要求仅仅意味着即使提示不明确并且可能指代多个对象（例如，衬衫上的一个点可能表示衬衫或穿着它的人），输出也应该是一个合理的掩码（就如上面动图「SAM 还能为为不明确的提示生成多个有效掩码」所示）。此任务用于预训练模型并通过提示解决一般的下游分割任务。

如下图所示，在引擎盖（hood）下，图像编码器为图像生成一次性嵌入，而轻量级编码器将提示实时转换为嵌入向量。然后将这两个信息源组合在一个预测分割掩码的轻量级解码器中。在计算图像嵌入后，SAM 可以在 50 毫秒内根据网络浏览器中的任何提示生成一个分割。

在 web 浏览器中，SAM 有效地映射图像特征和一组提示嵌入以产生分割掩码

1100 万张图片，1B+ 掩码

数据集是使用 SAM 收集的。标注者使用 SAM 交互地注释图像，之后新注释的数据又反过来更新 SAM，可谓是相互促进。

使用该方法，交互式地注释一个掩码只需大约 14 秒。与之前的大规模分割数据收集工作相比，Meta 的方法比 COCO 完全手动基于多边形的掩码注释快 6.5 倍，比之前最大的数据注释工作快 2 倍，这是因为有了 SAM 模型辅助的结果。

最终的数据集超过 11 亿个分割掩码，在大约 1100 万张经过许可和隐私保护图像上收集而来。SA-1B 的掩码比任何现有的分割数据集多 400 倍，并且经人工评估研究证实，这些掩码具有高质量和多样性，在某些情况下甚至在质量上可与之前更小、完全手动注释的数据集的掩码相媲美。

Segment Anything 对使用数据引擎收集的数百万张图像和掩码进行训练的结果，得到一个包含 10 亿个分割掩码的数据集，是以往任何分割数据集的 400 倍。

SA-1B 的图像来自跨不同地理区域和收入水平的多个国家或地区的照片提供者，在拥有更多图像的同时对所有地区的总体代表性也更好。Meta 分析了其模型在感知性别表现、感知肤色和年龄范围方面的潜在偏差，结果发现 SAM 在不同群体中的表现类似。

SA-1B 可以帮助其他研究人员训练图像分割的基础模型。Meta 也进一步希望这些数据能够成为带有附加注释的新数据集的基础，例如与每个 mask 相关的文本描述。

未来展望

通过研究和数据集共享，Meta 希望进一步加速对图像分割以及更通用图像与视频理解的研究。可提示的分割模型可以充当更大系统中的一个组件，执行分割任务。作为一种强大的工具，组合（Composition）允许以可扩展的方式使用单个模型，并有可能完成模型设计时未知的任务。

Meta 预计，与专门为一组固定任务训练的系统相比，基于 prompt 工程等技术的可组合系统设计将支持更广泛的应用。SAM 可以成为 AR、VR、内容创建、科学领域和更通用 AI 系统的强大组件。比如 SAM 可以通过 AR 眼镜识别日常物品，为用户提供提示。

SAM 还有可能在农业领域帮助农民或者协助生物学家进行研究。

未来在像素级别的图像理解与更高级别的视觉内容语义理解之间，我们将看到更紧密的耦合，进而解锁更强大的 AI 系统。

留言🤔️：你觉得CV 研究者接下来何去何从？

参考链接：

https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/

https://www.zhihu.com/question/593914819

重磅！CV或迎来GPT-3时刻！

方法介绍

1100 万张图片，1B+ 掩码

未来展望

作者信息

文章信息

上一篇

下一篇