AI生成更接近人类感知 Meta开源新模型ImageBind

　　Meta 宣布开源新的 AI 模型，可将多种不同方式的数据数据连结在一起，未来可望创造身临其境的多种感官体验。

　　Meta开源的新模型ImageBind，是第一个能够一次从6种不同方式结合信息的AI模型。核心概念是将 6 种类型的数据数据链接到单一的 embedding space，包括视觉数据(图片和视频的形式)、热(像是红外线影像)、文字、音频、深度信息，以及最耐人寻味的 IMU(Inertial Measurement Unit，惯性测量单元)读数。

　　 ImageBind 模型的概念架构

　　这听起来有点抽象，但正是这个概念支撑起近来生成式 AI 的蓬勃发展。

　　比方说，Midjourney、Stable Diffusion、DALL-E 等文字转成图片的 AI 工具，在模型训练阶段就将文字和图片链接在一起，它们在视觉数据中寻找模式，同时将信息和图片描述链接在一起。这就是这些 AI 工具能够根据用户的文字提示产生图片的原因，许多同样以文字提示产生视频或音频的 AI 工具也是如此。

　　在这概念下，未来的 AI 系统统能以同样的模式交叉引用数据资料。比方说，想象有个新的虚拟现实设备，它不仅可以产生声音、视觉影像，还能产生物理环境中的动作感受。当你想要模拟一趟海上之旅，虚拟现实系统不仅让你置身在一艘船上，背景有海浪声，还会让你感受脚下的甲板摇晃、吹来凉爽的海风等等。

　　Meta 认为其他感官的数据资料，未来可望加入模型当中，例如触摸、口语、气味或者大脑 fMRI(功能性磁振造影)等。

　　虽然ImageBind只是Meta旗下一项项目，还没有具体应用成果，却指出生成式AI未来一大发展方向，同时对应到Meta重金投入的虚拟现实、混合实境以及元宇宙等愿景。

　　ImageBind 的研究不仅很有意思，Meta 更是坚定站在开源阵营当中，相较于 OpenAI、Google 等公司有不同做法。 ImageBind 也延续 Meta 既有策略，向开发者和研究人员公开研究成果。

专题

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业