Meta开源的新模型ImageBind,是第一个能够一次从6种不同方式结合信息的AI模型。 核心概念是将 6 种类型的数据数据链接到单一的 embedding space,包括视觉数据(图片和视频的形式)、热(像是红外线影像)、文字、音频、深度信息,以及最耐人寻味的 IMU(Inertial Measurement Unit,惯性测量单元)读数。
ImageBind 模型的概念架构
这听起来有点抽象,但正是这个概念支撑起近来生成式 AI 的蓬勃发展。
比方说,Midjourney、Stable Diffusion、DALL-E 等文字转成图片的 AI 工具,在模型训练阶段就将文字和图片链接在一起,它们在视觉数据中寻找模式,同时将信息和图片描述链接在一起。 这就是这些 AI 工具能够根据用户的文字提示产生图片的原因,许多同样以文字提示产生视频或音频的 AI 工具也是如此。
在这概念下,未来的 AI 系统统能以同样的模式交叉引用数据资料。 比方说,想象有个新的虚拟现实设备,它不仅可以产生声音、视觉影像,还能产生物理环境中的动作感受。 当你想要模拟一趟海上之旅,虚拟现实系统不仅让你置身在一艘船上,背景有海浪声,还会让你感受脚下的甲板摇晃、吹来凉爽的海风等等。
Meta 认为其他感官的数据资料,未来可望加入模型当中,例如触摸、口语、气味或者大脑 fMRI(功能性磁振造影)等。
虽然ImageBind只是Meta旗下一项项目,还没有具体应用成果,却指出生成式AI未来一大发展方向,同时对应到Meta重金投入的虚拟现实、混合实境以及元宇宙等愿景。
ImageBind 的研究不仅很有意思,Meta 更是坚定站在开源阵营当中,相较于 OpenAI、Google 等公司有不同做法。 ImageBind 也延续 Meta 既有策略,向开发者和研究人员公开研究成果。