本文介绍了Meta团队开发的人工智能系统V-JEPA(Video Joint Embedding Predictive Architecture),该系统通过对普通视频的学习,能够建立对现实世界物理规律的直觉理解。V-JEPA不仅在模拟婴儿对于物理现象的认知测试中表现出色,还能对违反常识的情况产生“惊讶”反应。该系统用抽象表达而非像素级预测来理解视频内容,提升了对物理世界规律的学习和应用,并在机器人领域展示了实际应用前景。尽管取得了突破性进展,当前的系统在记忆时间长度及不确定性量化方面仍有不足。
How One AI Model Creates a Physical Intuition of Its Environment | Quanta Magazine
V-JEPA模型的开发灵感来源于婴儿的物理认知测试。例如,研究人员曾在实验中观察6个月大的婴儿如何对“玻璃杯在桌上被挡住却依然存在”表现出惊讶。Meta开发的V-JEPA同样通过对大量视频的观察,逐步建立起“物体永恒性”(object permanence)等基础物理概念,而无需预设任何物理假设。系统遇到视频中不符合实际物理规律的内容(如物体凭空消失)时,预测误差显著上升,表现出类似婴儿的“惊讶”反应。这种方式表明AI能够仅凭观察数据,逐步习得世界的基础规律,为通用人工智能的发展提供了新范式。
此外,V-JEPA的这一直觉学习过程,不依赖于专家设计的领域知识或规则库。其通过对大量普通视频的对比、预测和修正,模拟了人类婴儿对世界规律的原始探索过程。该系统学习到的物理直觉,也为机器人等现实场景下的自主决策、路径规避等任务奠定了基础。
传统视频AI系统多基于像素空间(pixel space)建模,这意味着对视频画面中的每一个像素都进行等权重处理。例如,无人驾驶系统分析街景时,系统可能同等关注车灯、树叶抖动和行人,这导致分辨关键物体的效率和准确性下降。而V-JEPA的核心创新,在于基于更高层次的抽象潜变量(latent representations)进行学习。
具体而言,V-JEPA在训练过程中会先遮挡视频画面中的部分像素,并训练神经网络预测被遮挡区域的信息。但不同于像素级的直接还原,V-JEPA会先将画面经过Encoder 1神经网络编码为少量潜在变量(如一个圆柱体的高度、宽度、朝向和位置),这些变量捕捉了图像的关键信息,大幅降低了数据维度。
在原始视频和遮挡视频分别经过编码后,系统再由Predictor模块根据遮挡视频的潜变量来预测原始视频的潜变量,从而不被无关噪声信息(如树叶抖动)干扰,而专注于如交通信号灯颜色、车辆位置等关键物理信息。
这种方法不仅提升了模型对物理规律的敏感度,还明显减少了对下游任务(如图像分类、动作识别)所需标注数据量。预训练后的Encoder和Predictor网络能够被灵活迁移到不同任务场景。
为检验V-JEPA的“物理直觉”,Meta团队引入了IntPhys等第三方测试集。该测试集要求AI模型分辨视频中的物理事件是否合理,例如球体在遮挡物后不见了、物体无视重力悬空等。
V-JEPA模型在IntPhys测试中准确率接近98%,而传统基于像素的模型则仅略高于随机猜测。Meta团队还对V-JEPA的“惊讶程度”进行了量化,即当模型基于先前帧预测未来画面时,遇到物理不可能事件时模型输出的预测误差会急剧升高。
这种“惊讶”不仅反映了模型的预测能力,也类似于婴儿对违背常识场景的反应。外部认知科学家对这种结果表示认可,认为这类模型无需大量先验知识,就能通过自主训练学到常识型直觉,这是接近人类智能的重要一步。
尽管V-JEPA及其升级版V-JEPA 2已被用于22百万视频的预训练,并可通过少量机器人数据(包括视频与动作)快速微调,实现简单的机器人操作任务,但目前模型仍有显著局限。
主要问题在于记忆时间长度有限,V-JEPA 2只能对几秒钟长的视频进行建模和预测,超出这一范围的信息会被遗忘。团队成员比喻当前系统记忆能力“像金鱼”。此外,V-JEPA目前无法对未来预测的不确定性进行明确量化。当模型所需的历史信息不足以判定未来事件时,系统无法衡量自身预测的可靠性,这也被专业学者指出是未来模型完善的关键方向。