V-JEPA模型：Meta团队如何让AI获得物理直觉

概述

本文介绍了Meta团队开发的人工智能系统V-JEPA（Video Joint Embedding Predictive Architecture），该系统通过对普通视频的学习，能够建立对现实世界物理规律的直觉理解。V-JEPA不仅在模拟婴儿对于物理现象的认知测试中表现出色，还能对违反常识的情况产生“惊讶”反应。该系统用抽象表达而非像素级预测来理解视频内容，提升了对物理世界规律的学习和应用，并在机器人领域展示了实际应用前景。尽管取得了突破性进展，当前的系统在记忆时间长度及不确定性量化方面仍有不足。

How One AI Model Creates a Physical Intuition of Its Environment | Quanta Magazine

主题梳理

一、AI如何像婴儿一样学习物理世界

V-JEPA模型的开发灵感来源于婴儿的物理认知测试。例如，研究人员曾在实验中观察6个月大的婴儿如何对“玻璃杯在桌上被挡住却依然存在”表现出惊讶。Meta开发的V-JEPA同样通过对大量视频的观察，逐步建立起“物体永恒性”（object permanence）等基础物理概念，而无需预设任何物理假设。系统遇到视频中不符合实际物理规律的内容（如物体凭空消失）时，预测误差显著上升，表现出类似婴儿的“惊讶”反应。这种方式表明AI能够仅凭观察数据，逐步习得世界的基础规律，为通用人工智能的发展提供了新范式。

此外，V-JEPA的这一直觉学习过程，不依赖于专家设计的领域知识或规则库。其通过对大量普通视频的对比、预测和修正，模拟了人类婴儿对世界规律的原始探索过程。该系统学习到的物理直觉，也为机器人等现实场景下的自主决策、路径规避等任务奠定了基础。

二、抽象层级的“潜变量”建模 VS 像素空间建模

传统视频AI系统多基于像素空间（pixel space）建模，这意味着对视频画面中的每一个像素都进行等权重处理。例如，无人驾驶系统分析街景时，系统可能同等关注车灯、树叶抖动和行人，这导致分辨关键物体的效率和准确性下降。而V-JEPA的核心创新，在于基于更高层次的抽象潜变量（latent representations）进行学习。

具体而言，V-JEPA在训练过程中会先遮挡视频画面中的部分像素，并训练神经网络预测被遮挡区域的信息。但不同于像素级的直接还原，V-JEPA会先将画面经过Encoder 1神经网络编码为少量潜在变量（如一个圆柱体的高度、宽度、朝向和位置），这些变量捕捉了图像的关键信息，大幅降低了数据维度。

在原始视频和遮挡视频分别经过编码后，系统再由Predictor模块根据遮挡视频的潜变量来预测原始视频的潜变量，从而不被无关噪声信息（如树叶抖动）干扰，而专注于如交通信号灯颜色、车辆位置等关键物理信息。

这种方法不仅提升了模型对物理规律的敏感度，还明显减少了对下游任务（如图像分类、动作识别）所需标注数据量。预训练后的Encoder和Predictor网络能够被灵活迁移到不同任务场景。

三、“直觉物理”评测与惊讶反应机制

为检验V-JEPA的“物理直觉”，Meta团队引入了IntPhys等第三方测试集。该测试集要求AI模型分辨视频中的物理事件是否合理，例如球体在遮挡物后不见了、物体无视重力悬空等。

V-JEPA模型在IntPhys测试中准确率接近98%，而传统基于像素的模型则仅略高于随机猜测。Meta团队还对V-JEPA的“惊讶程度”进行了量化，即当模型基于先前帧预测未来画面时，遇到物理不可能事件时模型输出的预测误差会急剧升高。

这种“惊讶”不仅反映了模型的预测能力，也类似于婴儿对违背常识场景的反应。外部认知科学家对这种结果表示认可，认为这类模型无需大量先验知识，就能通过自主训练学到常识型直觉，这是接近人类智能的重要一步。

四、V-JEPA的适用范围与当前局限

尽管V-JEPA及其升级版V-JEPA 2已被用于22百万视频的预训练，并可通过少量机器人数据（包括视频与动作）快速微调，实现简单的机器人操作任务，但目前模型仍有显著局限。

主要问题在于记忆时间长度有限，V-JEPA 2只能对几秒钟长的视频进行建模和预测，超出这一范围的信息会被遗忘。团队成员比喻当前系统记忆能力“像金鱼”。此外，V-JEPA目前无法对未来预测的不确定性进行明确量化。当模型所需的历史信息不足以判定未来事件时，系统无法衡量自身预测的可靠性，这也被专业学者指出是未来模型完善的关键方向。