Meta 的 Segment Anything AI 模型是什么?为什么您应该关心?

中心论点

  • Meta 的 Anything Model Segment 是计算机视觉领域的革命性进步,使 AI 能够有效地分割和分析图像。
  • 与以前的分割方法不同,SAM 是在巨大的数据集上进行训练的,可以检测和分割未经专门训练的对象。
  • Anything Model 细分市场具有广泛的应用,包括 VR/AR、内容创作和科学研究等行业,其开源可用性使其可供各种项目使用。

今天,当我们想到人工智能时,我们主要想到的是聊天机器人,比如 ChatGPT,去年因其自动生成的内容引起了不小的轰动。 然而,人工智能不仅仅是编写故事和编译来自不同来源的信息。

Meta AI 的新 Segment Anything 模型 (SAM)可能是计算机查看和处理图像方式的革命性进步。 新模型有望成为图像分割领域的重大进步,这意味着它可能会影响 VR 等商业技术,并帮助科学家进行研究。

什么是分段任意模型?

首先,让我们看一下新的 Segment Anything 模型。 计算机视觉发展中最重要的元素之一——计算机处理和分析视觉数据以分类或提取信息的方式——是分割。 分割基本上是计算机获取图像并将其划分为功能元素的能力,例如区分背景和前景、识别图像中的个人或仅分离图像中具有外壳的部分。

关闭

Meta 的 Segment Anything 模型实际上是一组新任务、一个数据集和一个模型,它们一起工作以提供更有效的分割方法。 Segment Anything模型拥有迄今为止最大的分割数据集(所谓Segment Anything 1万亿掩模数据集)。

Metas SAM 是一种图像分割模型,可以响应用户提示或点击来选择所选图像中的对象,使其功能极其强大且易于使用。 有趣的是,Meta 还宣布 SAM 模型和数据集将在开放框架下向研究人员开放 Apache 2.0 许可证。

您已经可以尝试该模型的演示了 在 Meta 的网站上。 它显示了模型的三种功能:通过鼠标单击选择对象、在图像中的选定字段内创建语义对象或分割图像中的所有对象。

为什么 SAM 与其他分割方法不同?

Segment Anything Model 当然不是图像分割的第一个解决方案。 那么为什么这有这么大的事呢? 这些旧模型和 Meta 方法之间的区别在于它们的训练方式。 迄今为止,解决这个问题的主要方法有两种:

  • 互动细分 允许模型分离图像中的每个对象类别。 然而,它必须首先经过训练并依靠人类输入来正确识别每个对象类别
  • 自动分割 只允许选择预定义的对象类别,并且可以完全自动训练,但需要许多示例才能有效工作。 例如,如果你想让狗在图片中被识别,你首先需要向它提供数万张狗的图片来训练和“识别”。

相反,Meta 的 Segment Anything 模型本质上是这两种方法的综合。 一方面,它接受了来自 1100 万张图像的超过 10 亿个掩模的庞大数据集的训练。 另一方面,由于它能够概括其训练并将其应用到其专业知识之外,它还可以识别和分割未经训练的对象类别。

此外,SAM 是一种可广告模型,可根据用户输入进行细分。 这意味着它可以轻松地在不同场景中使用,并且可以根据特定任务的需要轻松实现和修改。

为什么 Segment Anything 模型很重要?

总的来说,Meta 新开发的 Segment Anything Model 的最大优势之一就是它的适应性。 由于其一般性质——它甚至可以分割尚未训练过的对象——(相对)非常容易适应该模型并在不同的用例中实现它。

图像分割对于所有涉及图像的基于人工智能和机器学习的任务至关重要,因为它允许这些模型识别和分析视觉图像。 因此,不需要特定训练(或者至少不需要针对每个场景)的通用模型可以减少时间和资源需求。 Meta 声称这是人工智能民主化的一大进步,即使在预算和时间有限的情况下也可以使用计算机视觉。

由于细分模型是任何人工智能的重要组成部分,Meta 的努力可以对许多行业产生重大影响。 最明显的之一是虚拟现实/增强现实,它使用分段模型来检测用户所看到的内容,并将这些提示集成到 VR 应用程序中。

Google

内容创建是 Segment Anything 模型可以产生重大影响的另一个领域。 Meta 认为 SAM 可以为照片或视频编辑人员提供很大帮助,让他们能够快速有效地提取图像和视频部分,从而使编辑过程更快、更轻松。

Meta还认为,这样的模型对于依赖各种形式的视觉数据的研究人员来说可以有很大的帮助。 该公司举了几个例子:记录动物的博物学家可以使用该模型来识别他们正在寻找的特定物种,天文学家可以使用该模型来探索整个宇宙。

Meta 推广的模型还有更多用例。 由于公司许可证的开放性,SAM 可供所有人在自己的项目中试用和使用。 您已经可以在 GitHub 上下载代码。 所以如果你想尝试实现这个模型, 它可以在这里找到