Physical AI

2024-06-27
在2022年的CORL会议落幕之际，李飞飞教授及其团队向学术界展示了一项创新成果——Behavoir-1k数据集。与其说这是一个数据集，不如说这是一个包含1000项日常任务的仿真环境。在他们的论文中，团队深入调研了普通用户最期待的机器人能力，从中筛选出了1000项任务，搭建了OmniGibson这一个训练环境。他们希望通过这样一个任务集合，使得研究人员关注到普通用户期望最高的任务上来，尽快将具身智能的研究推广到大众视野当中。在强化学习的范式当中，智能体(Agent)，就像人类学习一样，不断的与环境进行交互，从而改进自身的策略，以期最大化获得的奖励（Reward）。正是在这种不断的互动中，"Physics AI"的概念应运而生。“Physics”有两个方面的含义，一方面，它指的是视觉上符合物理规律的表现，即采用基于物理的渲染技术（PBR）；另一方面，它指的是物体的运动遵循物理特性，即所谓的Simulation。对于物理环境真实感的模拟，结合GPU并行的特征，为AI的学习创造了快速学习的环境。

Behavoir-1k仿真环境充分利用了GPU的基础设施。从展示的图像中可以看出，环境不仅包括了逼真的渲染效果，还融合了多种光效和物理模拟能力。在全功能的GPU上，除了为AI训练设计的计算单元外，还有先进的渲染管线。渲染管线生成的图像模拟了智能体上装备的各类传感器，如摄像头，提供了深度、色彩、距离等信息。物理引擎则模拟了接触力和IMU传感器数据。与传统的离线数据集不同，这些数据是根据不同场景定义和AI策略动态生成的。智能体在仿真环境中学到的技能可以快速地转移到真实世界的设备上，使智能技术走出虚拟，为社会生产带来实质性的推动。

具身智能目前仍是一个未被明确定义的术语，它可以指代机器人、机械臂等具体设备，也可以泛指所有与空间交互的智能形式。不同的设备具有不同的机械结构和控制目标，有的需要穿越崎岖地形，有的则需要避开突然出现的障碍。物理驱动的仿真环境能够满足这些多样化的需求，只需定义场景，物理和渲染引擎模拟的传感器就能捕获相应的数据。即使在离线学习模式下，具身智能也能通过仿真环境收集所需的数据集，从而更快地适应真实世界的特征分布。时间来到2024年，李飞飞教授创业，在她的TED演讲当中提到了所谓Spatial Intelligence。熟悉李飞飞教授的读者，一定知道ImageNet。她受到 WordNet 的启发，开创性地组建了一个超过一千万张标注数据的数据集，推动了深度学习的发展。而空间智能，则是从2D图像的智能，提升到3D空间当中。让Agent能够自如的在3D空间中探索，学习，这将会激发新一轮的AI技术的发展。