Robotics+LLM系列具身智能视觉表征大模型

对于具身智能来说，视觉肯定是一个不可缺少的信息来源。那么是否有针适用于具身智能的预训练视觉表征（Pre-trained Visual Representations, PVRs）大模型是一个值得研究的点。这篇文章就从多种具身智能任务，构建了CortexBench，来探索各种PVR，以及到底哪种路线能够最好的实现专用于具身智能的PVR。

在这里插入图片描述

CortexBench包含的任务包含运动控制、导航、灵巧操作、移动操作等多个任务。这篇文章为了验证预训练数据规模和多样性的效果，通过来自7种不同来源的4000个小时的Egocentric视频（5.6M张图像）以及ImageNet，使用MAE（Mask Auto-Encoding）来训练不同尺寸的ViT，然后这篇文章发现的一点是：扩大数据集和多样性并不能Universally提高表现，但是平均意义上可以。

怎么样衡量PVR的效果呢？CortexBench通过PVR获取的特征表示，然后采用强化学习或者模仿学习，在一系列任务上验证PVR的表现，如下：

在这里插入图片描述

首先要看看我们是否已经有了一个效果还行的大模型，具体验证了CLIP、R3M、MVP、VIP这几种模型。然后发现没有一个模型能够在所有的任务上都表现得最好。然后这篇文章就构建了ViT-B（86M参数），ViT-L（307M参数），然后采用MAE来训练。训练的数据包含Ego4D、100 Days of Hand（100DOH）、Something-Something（SS-V2）、Epic Kitchens等。在实验中有几个发现：

模型大小。ViT-L相对ViT-B平均意义上有提升。但是不是Universally，在有的情况下ViT-L不如ViT-B。

数据规模。增加数据规模可以提升表现。但是也是平均意义。These findings suggest that task-specific pre-training datasets could enhance the performance of models on individual tasks. 特定任务的数据可以提升特定任务的表现。
在这里插入图片描述