精彩收藏 · 2023年4月7日 0

Meta“AI超车”大动作,一切皆可分割

​最近的新技术真是层出不穷,搜索、办公、金融、游戏、电商……AI+似乎正在席卷千行百业。

除以上这些行业外,又有一行业出现新进展,这一次是CV(计算机视觉)领域正迎来“GPT时刻”。

“CV”是指计算机视觉(Computer Vision),它是一门研究如何使机器“看”的科学,目的是让计算机从数字图像或视频中获得高层次的理解,实现对目标的识别、跟踪、测量、分割、生成等功能。

打个比方的话,如果说人理解这个世界是通过双眼与大脑的组合运作,那么CV可以当作就是给人类大脑的计算机装上了两只眼睛。

4 月 6 日,根据 Meta AI 官方博客,Meta AI 宣布推出了一个 AI 模型 Segment Anything Model(SAM,分割一切模型)。他们在博客中介绍说,「SAM 已经学会了关于物体的一般概念,并且它可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像『领域』上即开即用,无需额外的训练。」在深度学习领域,这种能力通常被称为零样本迁移,这也是 GPT-4 震惊世人的一大原因。

英伟达人工智能科学家 Jim Fan 表示:「对于 Meta 的这项研究,我认为是计算机视觉领域的 GPT-3 时刻之一。它已经了解了物体的一般概念,即使对于未知对象、不熟悉的场景(例如水下图像)和模棱两可的情况下也能进行很好的图像分割。最重要的是,模型和数据都是开源的。恕我直言,Segment-Anything 已经把所有事情(分割)都做的很好了。」

一, SAM 的核心目标是什么

Segment Anything 项目的核心目标,就是减少特定任务对于建模专业往右、训练计算量和图像分割中自定义数据标注的需求。为了实现这个目标,Meta AI 团队希望建立一套图像分割基础模型:这是一个可提示模型,在不同数据集上接受训练并能够适应特定任务,类似于在自然语言处理模型中通过揭示词进行生成的方式。但与互联网上丰富的图像、视频和文本形成鲜明反差,训练图像分割模型所需要的数据在网上并不容易获取。因此,研究人员在 Segment Anything 项目中还同步开发了一套通用的可提示分割模型,用它创建出一套规模空前的分割数据集。

SAM 已经能够理解对象的一般概念,可以为任意图像或视频中的任何对象生成掩码,甚至支持它在训练期间从未见过的对象和图像类型。SAM 的通用性足以涵盖广泛用例,并可开箱即用于新的图像“领域”——包括水下照片和细胞显微镜图像,无需任何额外训练(即所谓「零样本迁移」)。

二,SAM 的工作原理提示分割

在自然语言处理和最近的计算机视觉领域,最令人兴奋的发展成果之一在于基础模型。这些基础模型能够使用“提示”技术对新数据集和任务执行零样本和少样本学习。Meta AI 团队也从这方面进展中汲取了灵感。

经过训练,SAM 能够根据任何提示返回有效的分割掩码,包括前景 / 背景点、粗框或掩码、自由格式文本等一切能够指示图像内分割内容的信息。即使提示不够明确且可能指代多个对象(例如指向衬衫上的一个点可能代表衬衫本体,也可能代表穿着衬衫的人),输出也应合理有效。Meta AI 团队通过这项任务对模型进行预训练,引导其通过提示解决常规的下游分割任务。

研究人员观察到,预训练任务和交互式数据集对模型设计施加了特定约束。具体来讲,该模型需要在网络浏览器的 CPU 上实时运行,这样标注者才能与 SAM 实时交互并高效进行标注。虽然运行时约束意味着要在质量和运行时间之间取得权衡,但他们发现简单的设计在实践中能够取得良好结果。

在工作原理层面,图像编码器会为图像生成一次性嵌入,而轻量级编码器则将所有提示实时转换为嵌入向量。之后,将这两个信息源组合在一个负责预测分割掩码的轻量级解码器内。在计算图像嵌入之后,SAM 能够在 50 毫秒内根据网络浏览器中的任意提示生成相应分割。

Segment Anything 的功能,是利用数据引擎收集的数百万张图像与掩码进行训练的结果。最终成果是一套包含超 10 亿个分割掩码的数据集,比以往任何分割数据集都要大出 400 倍。

三,AI商业化落地进程最快的赛道

据《人工智能行业研究框架》报告,从技术的应用分类来看,计算机视觉可以分为人脸识别、OCR、物体和场景识别、动态视频识别和姿态识别。

报告指出,人类从外界接受到的各种信息中有超过80%是通过视觉获得的,计算机视觉为人工智能领域中占比最大的分支领域,也是人工智能商业化落地进程最快的赛道,2020年我国计算机视觉产品的市场规模占整个人工智能行业的57%。2021年,中国计算机视觉核心产品的市场规模已接近千亿元大关。此外,与计算机视觉相关的计算机通信设备销售、工程建设、传统业务效益转化等带动相关产业规模超过3000亿元。

国海证券也指出,计算机视觉是计算机模拟甚至超越人类视觉,是人工智能技术层中应用最为广泛、市场占比最高的核心技术。

应用方面,计算机视觉技术在泛安防、金融、互联网、医疗、工业、政务等领域得到广泛应用。

具体来看,出于政策和财政支持等原因,计算机视觉产品技术在泛安防(包括公安、交通、社区、文教卫等多个领域)仍是计算机视觉乃至整个国内人工智能产业实际落地的重要基石,2021年国内泛安防领域计算机视觉核心产品占计算机视觉总核心产品规模的70.7%。

此外,医疗领域现阶段市场规模仍较小,部分场景已经成熟,随着以计算机视觉为核心的AI医学影像辅助诊断产品及新型智能医疗器械在各级医院及医疗机构的铺开,潜力较大。

总体来看,国海证券认为计算机视觉商业化尚处黎明之前。

四,相关产业链

资料显示,计算机视觉行业的产业链上游为视觉传感器、芯片、算法框架、IaaS平台,中游为计算机视觉解决方案厂商,向产业链上下游延展,持续拓宽下游应用领域边界下游包括制造业、金融服务、公共服务业等在内的各个行业。

从产业链格局来看,计算机视觉领域已形成三大阵营:

1)以商汤、旷视、依图、云从四小龙为首的初创企业,凭借先进的算法逐步向各领域拓展;

2)以海康、大华、宇视为代表的传统安防巨头,保持原有优势的同时积极引入或自研相关算法,提高竞争力;

3)以BAT、华为等互联网、ICT领域的巨头,通过技术输出和资本扩大布局。

学术领域,计算机视觉已从过去的理论研究逐步转向应用,仍为以谷歌、微软、Meta等为首的海外主导,国内商汤、百度集团、腾讯控股、阿里巴巴也颇有建树。

五,展望未来

可以预计,在未来,在任何需要在图像中查找和分割对象的应用中,都有SAM的用武之地。SAM可以成为更大的AI系统的一部分,对世界进行更通用的多模态理解,

比如,理解网页的视觉和文本内容。

比如在AR/VR领域,SAM可以根据用户的视线选择对象,然后把对象「提升」为3D。

对于内容创作者,SAM可以提取图像区域进行拼贴,或者视频编辑。SAM还可以在视频中定位、跟踪动物或物体,有助于自然科学和天文学研究。

CV领域诸如电动车的自动驾驶功能、电力行业的线缆检测报警、流水线机器人分拣等等估计会发生跃迁式升级。

未来,SAM 可通过 AR 眼镜识别日常物品,并向用户发出提醒和提示。

SAM 拥有广泛的潜在影响范围,也许有一天能帮助农牧业和生物学家开展研究。

铁粉号盘中随时更新,近期热点发掘文章:

光伏反转,高纯石英砂概念除了石英股份、欧晶科技还有谁(深度分析)

光伏的暴击来了,不是超跌反弹,原因有二

硬核逻辑:数字中国纳入考核KPI,新型工业化分支2小龙(低位逻辑)

ChatGPT算力硬伤引爆CPO,CPO概念成长逻辑分析

钙钛矿赛道0~1加速开启,钙钛矿及HJT上游核心材料低位龙头(业绩反转)

美国大储毛利25%+以上,核心龙头机会分析

充电桩利空调整,分歧机会来临,低估三小龙

我会在 公众号:海涵财经 每天更新最新的医疗新基建、一体化压铸、 汽车智能化,激光雷达,HUD,车规芯片,空气悬挂、L3级智能驾驶、PET铜箔,纳电池,800V高压,光伏HJT、TOPCON、钙钛矿、光伏XBC、BIPV、IGBT芯片、碳化硅SIC、CTP/CTC/CTB电池、4680电池、工业母机、海风柔直高压、新能源车高压快充、高镍三元、碳纤维、PET铝箔、PET铜箔、空气源热泵、新材料、中药创新药、中药配方颗粒、乡村振兴、锂矿、钒液流电池、钠离子电池、分布式储能、集中式储能、抗原检测等最新题材热点挖掘,未来属于高预期差的结构性市场,把握核心赛道以及个股的内在价值逻辑预期差才是根本所在。

— END —

先赞后看,养成习惯

免责声明:图片、数据来源于网络,转载仅用做交流学习,如有版权问题请联系作者删除

人工客服(haihancaijing009):

图片