斯坦福炒虾机器人原班人马新作!最强大脑Gemini加持,机器人炫技导航玩出新花样
【新智元导读】斯坦福炒虾机器人团队时隔半年再出新作,谷歌最强Gemini1.5Pro加持,Mobility VLA让机器人在836平方米的办公室里轻松导航。
还记得年初爆火的斯坦福炒虾机器人吗?
时隔半年,原班人马联合谷歌研究人员,重磅推出全新机器人自主导航的基础模型——Mobility VLA。
与以往不同的是,新架构得到了谷歌迄今为止最强Gemini1.5Pro大模型的加持。
Gemini1.5Pro不仅拥有100k长上下文,还具备了强大的多模态能力。给机器人安上「最强大脑」,可想而知,用在RT-2机器人身上有多么无敌。
通过观看9000平方英尺谷歌办公室视频之后,RT-2机器人建立起了对整个环境感知的概念。
接下来,就是让RT-2炫技的时刻了。
首先,让RT-2带自己去一个能画东西的地方。
戴着一个可爱的的黄色领结机器人回应道,「好的,给我一分钟,让我用Gemini稍加思考」。
不一会儿功夫,它就把人类带到一块墙壁大小的白板前。
然后,它再次收到新的命令,按照白板上指示的路线图,抵达「蓝色区域」。
RT-2再次思考了片刻,然后走了很长一段路,最终来到了机器人测试区。
不仅如此,研究人员主动带领RT-2参观了Lewis的办公桌,以及临时办公桌区域之后,再要求RT-2带路。
可见,RT-2有着强大的记忆能力,能够准确识别位置。
50条指令,完成率90%
RT-2能够流畅完成以上任务的奥秘就在于,利用Genimi训练机器人的导航系统。
具体做法是,拍摄指定区域(如家庭或办公空间)的视频导览,让Gemini1.5Pro加持的机器人「观看」视频以了解环境。
接下来,利用Mobility VLA将环境理解和常识推理能力结合起来。
然后,机器人可以根据观察和学习到的情况,对书写和语音的指令以及手势做出反应。
例如,在用户展示一部手机并询问「在哪里可以充电」后,机器人会引导用户找到电源插座。
DeepMind表示,在一定空间内,用Gemini驱动的机器人,在发出50多条用户指令后,完成指令成功率高达90%。
研究人员还发现,Gemini1.5Pro能让机器人规划如何完成导航以外的指令。
例如,一位小哥桌上摆放着两排喝光了的肥宅快乐水罐子,还想再来一瓶,于是向机器人询问他最喜欢的饮料是否有货。
研究小组说,Gemini指引机器人应该导航到冰箱,检查是否有可乐,然后返回用户处报告结果。
DeepMind表示,团队将进一步研究这些机器人反馈的结果。
目前,机器人处理这些指令需要10-30秒的时间,对于实际应用来说太慢了,在响应速度方面仍有提升空间。
Mobility VLA
在导航研究领域,一个难以实现的目标是构建一个能够理解自然语言和图像等多模态指令,并执行有效导航的智能体。
为了达成这一目标,研究人员提出了一类广泛应用的导航任务——带有演示路线的多模态指令导航(Multimodal Instruction Navigation with demonstration Tours,MINT)。
在这种任务中,环境信息通过预先录制的演示视频提供。
论文地址:https://arxiv.org/abs/2407.07775v1
为了解决MINT任务,研究人员进一步提出了一种分层的视觉-语言-行动(Vision-Language-Action,VLA)导航策略——Mobility VLA。它结合了长上下文VLMs的环境理解和常识推理能力,以及基于拓扑图的强大低层导航策略。
其中,高层策略使用长上下文VLM,将演示路线视频和多模态用户指令作为输入,在演示视频中找到目标帧。接下来,低层策略利用目标帧和离线构建的拓扑图,在每个时间步生成机器人动作。
在一个836平方米的真实环境中的评估结果表明,Mobility VLA在以前未解决的多模态指令上,具有很高的端到端成功率。(例如,「我应该把这个放在哪里?」同时拿着一个塑料箱)
如图1所示,Mobility VLA是一种分层导航策略,包含在线和离线两个部分。
离线阶段,会从演示路线(N,F)中生成一个拓扑图G。在线上,高层策略会使用演示路线和多模态用户指令(d,I)来找到导航目标帧的索引g。
接下来,低层策略会利用拓扑图、当前相机观测O和目标帧索引g,为机器人在每个时间步生成一个路径点动作a,以便机器人执行。
演示路线和离线拓扑图生成首先需要的是环境演示路线,这个可以由人类用户通过远程操作提供,或者只需在环境中行走时用智能手机录制视频即可。
然后,Mobility VLA会离线构建一个拓扑图G=(V, E),其中每个顶点vi∈V对应于演示路线视频(F, N)中的帧fi。
通过使用COLMAP这个现成的结构-从-运动(structure-from-motion)管线来确定每帧的近似六自由度(6-Degree-of-Freedom)相机姿态,并将其存储在顶点中。
接下来,如果目标顶点「在源顶点前面」(距离源顶点的姿态小于90度)并且在2米以内,则向G中添加一个有向边。
与传统的导航管线相比(例如,先映射环境,再识别可通行区域,最后构建PRM),扑图方法要简单得多,因为它能根据游览轨迹捕捉环境的一般连通性。
使用长上下文多模态VLM进行高层目标查找在在线执行过程中,高层策略利用VLMs的常识推理能力,从演示路线中识别出符合各种多模态、口语化且通常模糊的用户指令的导航目标。
为此,研究人员准备了一个由交错文本和图像组成的提示P(F,N,d,I)。
以下是表1中关于多模态用户指令「我应该把这个放在哪里?」的具体P示例:
Youarearobotoperatinginabuildingandyourtaskistorespondtotheusercommandaboutgoingtoaspecificlocationbyfindingtheclosestframeinthetourvideotonavigateto.Theseframesarefromthetourofthebuildinglastyear.[Frame1Imagef1]Frame1.[Framenarrativen1]...[FramekImagefk]Framek.[Framenarrativenk]Thisimageiswhatyouseenow.Youmayormaynotseetheuserinthisimage.[ImageInstructionI]Theusersays:WhereshouldIreturnthis?Howwouldyourespond?Canyoufindtheclosestframe?
此时,VLM会返回一个整数形式的目标帧索引g。
使用拓扑图实现低层目标到达一旦高层策略识别出目标帧索引g,低层策略(算法1)就会接管,并在每个时间步生成一个路径点动作(公式1)。
对于每个时间步,使用一个实时的分层视觉定位系统,来基于当前的相机观测O,来估计机器人的姿态T和最近的起始顶点vs∈G。
这个定位系统会根据全局描述符找到拓扑图G中的k个最近候选帧,然后通过PnP计算出机器人的姿态T。
接下来,通过Dijkstra算法(第9行)在拓扑图上找到从起始顶点vs到目标顶点vg(即目标帧索引g对应的顶点)之间的最短路径S。
最后,低层策略会返回一个路径点动作,该动作只是路径S中下一个顶点v1相对于当前姿态T的位移∆x,∆y和旋转角度∆θ(第10行)。
实验
为了探究Mobility VLA的性能,研究人员针对以下三个问题进行了实验设计。
RQ1:Mobility VLA在现实世界的MINT中表现如何?
RQ2:Mobility VLA是否因为使用了长上下文VLM而优于其他方案?
RQ3:拓扑图是否必要?VLM能否直接生成动作?
演示路线:通过使用游戏手柄远程操作机器人来收集演示路线。所有走廊都从相反方向走了两次。最终的路线大约16分钟长(每秒1帧,共948帧),并且在路线中添加了「每个人的临时办公桌」和「Lewis的办公桌」的叙述,分别在5:28和7:14帧,以实现个性化导航。
多模态用户指令:收集了4个类别共57条用户指令。包括:20条无须推理的指令(RF),15条需要推理的指令(RR),12条关于小物件的指令(SO),以及10条多模态指令(MM)。
RQ1:Mobility VLA在真实环境中强大的端到端性能- 极高的端到端成功率
表2显示,Mobility VLA 在大多数用户指令类别中具有高端到端导航成功率,包括以前难以实现的需要推理和多模态指令,并且还具有合理的SPL(成功率加权路径长度)。
然而,在小物件类别中的成功率显著较低。
最后,Mobility VLA 成功地在演示路线中加入了个性化叙述。在响应基本相同但来自不同用户的指令时,它能够正确地导航到不同的位置。
- 稳健的低层目标到达能力
表2还显示了Mobility VLA在现实世界中低级目标到达策略的稳健性,其成功率达到了100%。
值得注意的是,演示路线是在实验前几个月录制的,当时许多物体、家具和光照条件都与实验时不同。
- 大规模仿真确认高端到端成功率
为了进一步探索端到端性能,研究人员利用仿真来扩大评估数量。
具体来说,通过使用NeRF创建办公室环境的高保真仿真重建,并针对20个语言指令任务进行评估,每个任务有50个随机起始姿态。
实验结果显示,高层目标找到率为90%,低层目标到达率为100%,总共成功执行了900次端到端操作。
- 使用手机导航进行家庭环境的泛化
为了展示Mobility VLA的通用性和易用性,研究人员在一个真实的类家庭环境中进行了概念验证实验。其中,演示是通过Google Pixel6手机录制的。
结果显示,成功率为100%,SPL为0.87。这表明Mobility VLA:
1. 无论在什么环境下都表现良好;
2. 极易于部署。(用户只需使用手机录制环境导航,上传给机器人后即可开始下达命令)
研究人员表示,这种通用性和易用性在机器人导航中是前所未见的。
RQ2:长上下文多模态VLM在高层目标寻找方面更优- Mobility VLA优于其他方法
表3显示,Mobility VLA在高层目标找到成功率方面显著高于其他方法。
鉴于其低层目标到达成功率为100%,这些高层目标找到成功率也代表了端到端的整体成功率。
- 使用长上下文VLM处理高帧率导航视频是成功的关键
表4显示,随着视频帧率的降低,高层目标找到的成功率也随之下降。(因为较低的帧率会错过重要的导航目标帧)
此外,在比较最先进的VLM时,只有上下文长度高达1M token的Gemini1.5Pro,才取得了令人满意的成功率。
图3展示了,在给出「我想要更多这个」的多模态指令和桌子上几个可乐罐的图片时,Mobility VLA能够正确识别出包含冰箱的帧,并引导用户前往。
而基于CLIP的检索方法则找到一个包含水瓶和一些杂物的桌子区域,认为其最接近完整指令图像,因为使用Owl-ViT很难从指令图像中提取出「用户想要什么」。
GPT-4o错误地尝试找到最接近指令图像的帧,而GPT-4V因无法找到包含饮料的帧而拒绝给出帧号。
最后,纯文本方法无法理解「这个」是指可乐罐还是办公室环境,因为它仅依赖于指令图像的文字说明。
RQ3:拓扑图对成功至关重要- 拓扑图对导航成功至关重要
表5展示了Mobility VLA与直接提示VLM输出路径点动作相比,在模拟中的端到端表现。
0%的端到端成功率表明,如果没有拓扑图,Gemini1.5Pro无法在零样本(Zero-shot)情况下导航机器人。而且,Gemini1.5API需要在每次推理调用时上传所有948张图像,导致每步运行时间高达26秒,而机器人仅移动1米。
相比之下,Mobility VLA的高层VLM需要花费10-30秒找到目标索引,然后机器人使用低层拓扑图导航到目标,从而形成一个高度稳健且高效(每步0.19秒)的MINT解算系统。
谷歌的十年血泪史
「机器人时代已经到来,AI的下一波浪潮将是物理AI,机器人将日益融入我们的日常生活中,一切都将机器人化。」
老黄在6月的演讲中已经预判了未来人形机器人发展的大好前景。
炫酷的赛博朋克风人形机器人正在吸引亚马逊、谷歌、Nvidia和微软等巨头科技公司的密切关注和数亿元的投资。
马斯克也将特斯拉的未来押注在机器人上,预测机器人Optimus「擎天柱」可能会把市值推向25亿美元。
「或许未来不到十年内,人们就可以给父母买一个机器人作为生日礼物了。」
马斯克此话一出,想到自己顶着烈日取外卖、辛辛苦苦做家务或者满世界找钥匙的你是不是感觉腰杆一松?
其实,谷歌的机器人制造并不是一路顺利。
早在2012到2013年间,谷歌就一口气收购了包括波士顿动力在内的11家机器人公司。
当时,正是安卓系统创始人Andy Rubin在管理谷歌机器人产品线,意识到机器人发展前途无限的谷歌试图加速AI机器人的商业布局。
在当时以软件见长的谷歌在并不擅长的硬件领域,选择用收购的方式来最大程度整合技术资源。
谷歌也一度认为,只要有了硬件基础,再加以最拿手的软件一结合,就能解决机器人领域的技术壁垒。
然而现实运作中却残酷地发现,机器人的运行准确度远远达不到要求。
比如你是一位公司大老板,一位成熟技工工作准确率能达到98%,而机器人只有不到90%。
这时你会选择雇佣一位成熟技工还是购买昂贵且易出错的机器人,并再雇佣一个人监督调整机器人的工作?
当前机器人的准确度可以达到80%-90%,为了最后的10%投入大量资金和人力,却看不到回报。
Andy Rubin爆出丑闻后离开了谷歌,当初收购的企业也分崩离析,波士顿更是以低于当时收购估值三倍的价格卖出。
由此可见,软件和硬件设施的制造以及两者的结合,成为机器人制作领域最为头疼的难题。
那么,在AI大模型热潮之下,这是否会为机器人制造带来曙光?有学习能力的机器人能否实现?
参考资料:
https://techcrunch.com/2024/07/11/watch-a-robot-navigate-the-google-deepmind-offices-using-gemini/
https://www.theverge.com/2024/7/11/24196402/google-deepmind-gemini-1-5-pro-robot-navigation
https://arxiv.org/abs/2407.07775v1
https://x.com/zipengfu/status/1811448045680382281