Robotics+LLM系列具身智能视觉表征大模型

news/2024/5/18 23:51:20 标签: 具身智能, 强化学习

对于具身智能来说,视觉肯定是一个不可缺少的信息来源。那么是否有针适用于具身智能的预训练视觉表征(Pre-trained Visual Representations, PVRs)大模型是一个值得研究的点。这篇文章就从多种具身智能任务,构建了CortexBench,来探索各种PVR,以及到底哪种路线能够最好的实现专用于具身智能的PVR。

在这里插入图片描述

CortexBench包含的任务包含运动控制、导航、灵巧操作、移动操作等多个任务。这篇文章为了验证预训练数据规模和多样性的效果,通过来自7种不同来源的4000个小时的Egocentric视频(5.6M张图像)以及ImageNet,使用MAE(Mask Auto-Encoding)来训练不同尺寸的ViT,然后这篇文章发现的一点是:扩大数据集和多样性并不能Universally提高表现,但是平均意义上可以。

怎么样衡量PVR的效果呢?CortexBench通过PVR获取的特征表示,然后采用强化学习或者模仿学习,在一系列任务上验证PVR的表现,如下:

在这里插入图片描述

首先要看看我们是否已经有了一个效果还行的大模型,具体验证了CLIP、R3M、MVP、VIP这几种模型。然后发现没有一个模型能够在所有的任务上都表现得最好。然后这篇文章就构建了ViT-B(86M参数),ViT-L(307M参数),然后采用MAE来训练。训练的数据包含Ego4D、100 Days of Hand(100DOH)、Something-Something(SS-V2)、Epic Kitchens等。在实验中有几个发现:

模型大小。ViT-L相对ViT-B平均意义上有提升。但是不是Universally,在有的情况下ViT-L不如ViT-B。

数据规模。增加数据规模可以提升表现。但是也是平均意义。These findings suggest that task-specific pre-training datasets could enhance the performance of models on individual tasks. 特定任务的数据可以提升特定任务的表现。
在这里插入图片描述

最后的结论是目前我们还没有一个足够强的通用具身智能视觉表征模型,但是发现通过MAE训练的模型可能是最有希望的。然后提升模型大小、数据规模可以在平均意义上提升效果,但是不能Universally。


http://www.niftyadmin.cn/n/5239712.html

相关文章

【QT5】QT5安装

QT5的安装 从软件开发的角度看,选择版本最新的稳定版是最佳选择,目前QT已经开发到QT6了,但是自从QT5最后一个版本QT5.15起,QT官方就不再提供离线安装包了,安装最新版本的QT除了要注册账号等麻烦的操作外,Q…

CUDA简介——CUDA内存模式

1. 引言 前序博客: CUDA简介——基本概念CUDA简介——编程模式CUDA简介——For循环并行化CUDA简介——Grid和Block内Thread索引 CUDA内存模式,采用分层设计,是CUDA程序与正常C程序的最大不同之处: Thread-Memory Correspondenc…

数据结构——希尔排序(详解)

呀哈喽,我是结衣 不知不觉,我们的数据结构之路已经来到了,排序这个新的领域,虽然你会说我们还学过冒泡排序。但是冒泡排序的性能不高,今天我们要学习的希尔排序可就比冒泡快的多了。 希尔排序 希尔排序的前身是插入排…

分享66个在线客服JS特效,总有一款适合您

分享66个在线客服JS特效,总有一款适合您 66个在线客服JS特效下载 链接:https://pan.baidu.com/s/1VqM6ASgKRFdQ8RyzbsX4uA?pwd6666 提取码:6666 Python采集代码下载链接:采集代码.zip - 蓝奏云 学习知识费力气&#xff0…

备战春招——12.04 算法

哈希表 哈希表主要是使用 map、unordered_map、set、unorerdered_set、multi_,完成映射操作,主要是相应的函数。map和set是有序的,使用的是树的形式,unordered_map和unordered_set使用的是散列比表的,无序。 相应函数…

Sketch利器大公开:十款使用率超高的懒人插件汇总

在设计领域,Sketch以其高效小巧的优势赢得了众多设计团队的青睐,帮助全球设计师创作了许多令人难以置信的作品。在使用Sketch的过程中,辅助使用一些Sketch插件可以让我们更有效地完成设计任务。在本文中,我们将揭示大厂设计师的收…

26. 深度学习进阶 - 深度学习的优化方法

Hi, 你好。我是茶桁。 上一节课中我们预告了,本节课是一个难点,同时也是一个重点,大家要理解清楚。 我们在做机器学习的时候,会用不同的优化方法。 SGD 上图中左边就是Batch Gradient Descent,中间是Mini-Batch Gra…

Vue学习计划--Vue2(二)Vue代理方式

Vue data中的两种方式 对象式 data:{}函数式 data(){return {} }示例&#xff1a; <body><div id"app">{{ name }} {{ age}} {{$options}}<input type"text" v-model"value"></div><script>let vm new Vue({el: …