欢迎访问黑料吃瓜网

10年专注吃瓜

吃瓜质量有保 售后7×24小时服务

24小时咨询热线:4006666666
联系我们
tel24小时咨询热线: 4006666666

手机:13999999999

电话:010-8888999

邮箱:[email protected]

地址:经济开发区高新产业园

您的位置:首页>>网友吃瓜>>正文

网友吃瓜

斯坦福炒虾机器人原班人马新作!Gemini加持,炫技导航玩出新花样

发布时间:2025-04-27 点此:543次

修改:修改部

明亮的斯坦福炒虾机器人原班人马新作!Gemini加持,炫技导航玩出新花样的插图

【新智元导读】斯坦福炒虾机器人团队时隔半年再出新作,谷歌最强Gemini 1.5 Pro加持,Mobility VLA让机器人在836平方米的作业室里轻松导航。

还记得年头爆火的斯坦福炒虾机器人吗?

时隔半年,原班人马联合谷歌研讨人员,重磅推出全新机器人自主导航的根底模型——Mobility VLA。

与以往不同的是,新架构得到了谷歌迄今为止最强Gemini 1.5 Pro大模型的加持。

Gemini 1.5 Pro不只具有100k长上下文,还具有了强壮的多模态才能。给机器人安上「最强壮脑」,可想而知,用在RT-2机器人身上有多么无敌。

经过观看9000平方英尺谷歌作业室视频之后,RT-2机器人树立起了对整个环境感知的概念。

接下来,便是让RT-2炫技的时刻了。

首要,让RT-2带自己去一个能画东西的当地。

戴着一个心爱的的黄色领结机器人回应道,「好的,给我一分钟,让我用Gemini稍加考虑」。

不一会儿功夫,它就把人类带到一块墙面巨细的白板前。

然后,它再次收到新的指令,依照白板上指示的道路图,抵达「蓝色区域」。

RT-2再次考虑了顷刻,然后走了很长一段路,终究来到了机器人测验区。

不只如此,研讨人员自动带领RT-2观赏了Lewis的作业桌,以及暂时作业桌区域之后,再要求RT-2领路。

可见,RT-2有着强壮的回忆才能,能够精确辨认方位。

50条指令,完结率90%

RT-2能够流通完结以上使命的奥妙就在于,运用Genimi练习机器人的导航体系。

详细做法是,拍照指定区域(如家庭或作业空间)的视频导览,让Gemini 1.5 Pro加持的机器人「观看」视频以了解环境。

接下来,运用Mobility VLA将环境了解和常识推理才能结合起来。

然后,机器人能够依据调查和学习到的状况,对书写和语音的指令以及手势做出反响。

例如,在用户展现一部手机并问询「在哪里能够充电」后,机器人会引导用户找到电源插座。

DeepMind标明,在必定空间内,用Gemini驱动的机器人,在宣布50多条用户指令后,完结指令成功率高达90%。

研讨人员还发现,Gemini 1.5 Pro能让机器人规划怎么完结导航以外的指令。

例如,一位小哥桌上摆放着两排喝光了的肥宅高兴水罐子,还想再来一瓶,所以向机器人问询他最喜欢的饮料是否有货。

研讨小组说,Gemini指引机器人应该导航到冰箱,查看是否有可乐,然后回来用户处陈述成果。

DeepMind标明,团队将进一步研讨这些机器人反应的成果。

现在,机器人处理这些指令需求10-30秒的时刻,关于实践运用来说太慢了,在呼应速度方面仍有提高空间。

Mobility VLA

在导航研讨范畴,一个难以完成的方针是构建一个能够了解自然言语和图画等多模态指令,并履行有用导航的智能体。

为了到达这一方针,研讨人员提出了一类广泛运用的导航使命——带有演示道路的多模态指令导航(Multimodal Instruction Navigation with demonstration Tours,MINT)。

在这种使命中,环境信息经过预先录制的演示视频供给。

论文地址:https://arxiv.org/abs/2407.07775v1

为了处理MINT使命,研讨人员进一步提出了一种分层的视觉-言语-举动(Vision-Language-Action,VLA)导航战略——Mobility VLA。它结合了长上下文VLMs的环境了解和常识推理才能,以及依据拓扑图的强壮低层导航战略。

其间,高层战略运用长上下文VLM,将演示道路视频和多模态用户指令作为输入,在演示视频中找到方针帧。接下来,低层战略运用方针帧和离线构建的拓扑图,在每个时刻步生成机器人动作。

在一个836平方米的实在环境中的评价成果标明,Mobility VLA在曾经未处理的多模态指令上,具有很高的端到端成功率。(例如,「我应该把这个放在哪里?」一起拿着一个塑料箱)

如图1所示,Mobility VLA是一种分层导航战略,包含在线和离线两个部分。

离线阶段,会从演示道路(N,F)中生成一个拓扑图G。在线上,高层战略会运用演示道路和多模态用户指令(d,I)来找到导航方针帧的索引g。

接下来,低层战略会运用拓扑图、其时相机观测O和方针帧索引g,为机器人在每个时刻步生成一个途径点动作a,以便机器人履行。

演示道路和离线拓扑图生成

首要需求的是环境演示道路,这个能够由人类用户经过长途操作供给,或许只需在环境中行走时用智能手机录制视频即可。

精美的斯坦福炒虾机器人原班人马新作!Gemini加持,炫技导航玩出新花样的图片

然后,Mobility VLA会离线构建一个拓扑图G=(V, E),其间每个极点vi∈V对应于演示道路视频(F, N)中的帧fi。

经过运用COLMAP这个现成的结构-从-运动(structure-from-motion)管线来承认每帧的近似六自由度(6-Degree-of-Freedom)相机姿势,并将其存储在极点中。

接下来,假如方针极点「在源极点前面」(间隔源极点的姿势小于90度)并且在2米以内,则向G中增加一个有向边。

与传统的导航管线比较(例如,先映射环境,再辨认可通行区域,终究构建PRM),扑图办法要简略得多,由于它能依据旅游轨道捕捉环境的一般连通性。

运用长上下文多模态VLM进行高层方针查找

在在线履行过程中,高层战略运用VLMs的常识推理才能,从演示道路中辨认出契合各种多模态、口语化且一般含糊的用户指令的导航方针。

为此,研讨人员预备了一个由交织文本和图画组成的提示P(F,N,d,I)。

以下是表1中关于多模态用户指令「我应该把这个放在哪里?」的详细P示例:

You are a robot operating in a building and your task is to respond to the user command about going to a specific location by finding the closest frame in the tour video to navigate to . These frames are from the tour of the building last year . [ Frame 1 Image f1] Frame 1. [ Frame narrative n1] ...[ Frame k Image fk ] Frame k . [ Frame narrative nk ] This image is what you see now . You may or may not see the user in this image . [ Image Instruction I] The user says : Where should I return this ? How would you respond ? Can you find the closest frame ?

此刻,VLM会回来一个整数方法的方针帧索引g。

运用拓扑图完成低层方针抵达

一旦高层战略辨认出方针帧索引g,低层战略(算法1)就会接收,并在每个时刻步生成一个途径点动作(公式1)。

关于每个时刻步,运用一个实时的分层视觉定位体系,来依据其时的相机观测O,来估量机器人的姿势T和最近的开端极点vs∈G。

这个定位体系会依据大局描述符找到拓扑图G中的k个最近候选帧,然后经过PnP计算出机器人的姿势T。

接下来,经过Dijkstra算法(第9行)在拓扑图上找到从开端极点vs到方针极点vg(即方针帧索引g对应的极点)之间的最短途径S。

终究,低层战略会回来一个途径点动作,该动作仅仅途径S中下一个极点v1相关于其时姿势T的位移∆x,∆y和旋转视点∆θ(第10行)。

试验

为了探求Mobility VLA的功能,研讨人员针对以下三个问题进行了试验设计。

RQ1:Mobility VLA在实际国际的MINT中体现怎么?

RQ2:Mobility VLA是否由于运用了长上下文VLM而优于其他计划?

RQ3:拓扑图是否必要?VLM能否直接生成动作?

演示道路:经过运用游戏手柄长途操作机器人来搜集演示道路。全部走廊都从相反方向走了两次。终究的道路大约16分钟长(每秒1帧,共948帧),并且在道路中增加了「每个人的暂时作业桌」和「Lewis的作业桌」的叙说,分别在5:28和7:14帧,以完成个性化导航。

多模态用户指令:搜集了4个类别共57条用户指令。包含:20条无须推理的指令(RF),15条需求推理的指令(RR),12条关于小物件的指令(SO),以及10条多模态指令(MM)。

RQ1:Mobility VLA在实在环境中强壮的端到端功能

- 极高的端到端成功率

表2显现,Mobility VLA 在大多数用户指令类别中具有高端到端导航成功率,包含曾经难以完成的需求推理和多模态指令,并且还具有合理的SPL(成功率加权途径长度)。

但是,在小物件类别中的成功率明显较低。

终究,Mobility VLA 成功地在演示道路中加入了个性化叙说。在呼应根本相同但来自不同用户的指令时,它能够正确地导航到不同的方位。

- 稳健的低层方针抵达才能

表2还显现了Mobility VLA在实际国际中低级方针抵达战略的稳健性,其成功率到达了100%。

值得注意的是,演示道路是在试验前几个月录制的,其时许多物体、家具和光照条件都与试验时不同。

- 大规模仿真承认高端到端成功率

为了进一步探究端到端功能,研讨人员运用仿真来扩展评价数量。

详细来说,经过运用NeRF创立作业室环境的高保真仿真重建,并针对20个言语指令使命进行评价,每个使命有50个随机开端姿势。

试验成果显现,高层方针找到率为90%,低层方针抵达率为100%,一共成功履行了900次端到端操作。

- 运用手机导航进行家庭环境的泛化

为了展现Mobility VLA的通用性和易用性,研讨人员在一个实在的类家庭环境中进行了概念验证试验。其间,演示是经过Google Pixel 6手机录制的。

成果显现,成功率为100%,SPL为0.87。这标明Mobility VLA:

1. 不管在什么环境下都体现杰出;

2. 极易于布置。(用户只需运用手机录制环境导航,上传给机器人后即可开端下达指令)

研讨人员标明,这种通用性和易用性在机器人导航中是前所未见的。

震撼的斯坦福炒虾机器人原班人马新作!Gemini加持,炫技导航玩出新花样的图像

RQ2:长上下文多模态VLM在高层方针寻觅方面更优

- Mobility VLA优于其他办法

表3显现,Mobility VLA在高层方针找到成功率方面明显高于其他办法。

鉴于其低层方针抵到达功率为100%,这些高层方针找到成功率也代表了端到端的全体成功率。

- 运用长上下文VLM处理高帧率导航视频是成功的要害

表4显现,跟着视频帧率的下降,高层方针找到的成功率也随之下降。(由于较低的帧率会错失重要的导航方针帧)

此外,在比较最先进的VLM时,只需上下文长度高达1M token的Gemini 1.5 Pro,才取得了令人满意的成功率。

图3展现了,在给出「我想要更多这个」的多模态指令和桌子上几个可乐罐的图片时,Mobility VLA能够正确辨认出包含冰箱的帧,并引导用户前往。

而依据CLIP的检索办规律找到一个包含水瓶和一些杂物的桌子区域,以为其最接近完好指令图画,由于运用Owl-ViT很难从指令图画中提取出「用户想要什么」。

GPT-4o过错地测验找到最接近指令图画的帧,而GPT-4V因无法找到包含饮料的帧而回绝给出帧号。

终究,纯文本办法无法了解「这个」是指可乐罐仍是作业室环境,由于它仅依赖于指令图画的文字说明。

RQ3:拓扑图对成功至关重要

- 拓扑图对导航成功至关重要

表5展现了Mobility VLA与直接提示VLM输出途径点动作比较,在模仿中的端到端体现。

0%的端到端成功率标明,假如没有拓扑图,Gemini 1.5 Pro无法在零样本(Zero-shot)状况下导航机器人。并且,Gemini 1.5 API需求在每次推理调用时上传全部948张图画,导致每步运转时刻高达26秒,而机器人仅移动1米。

比较之下,Mobility VLA的高层VLM需求花费10-30秒找到方针索引,然后机器人运用低层拓扑图导航到方针,然后构成一个高度稳健且高效(每步0.19秒)的MINT解算体系。

谷歌的十年血泪史

「机器人年代现已到来,AI的下一波浪潮将是物理AI,机器人将日益融入咱们的日常日子中,全部都将机器人化。」

老黄在6月的讲演中现已预判了未来人形机器人开展的大好远景。

炫酷的赛博朋克风人形机器人正在招引亚马逊、谷歌、Nvidia和微软等巨子科技公司的亲近重视和数亿元的出资。

马斯克也将特斯拉的未来押注在机器人上,猜测机器人Optimus「擎天柱」或许会把市值面向25亿美元。

「或许未来不到十年内,人们就能够给爸爸妈妈买一个机器人作为生日礼物了。」

马斯克此话一出,想到自己顶着酷日取外卖、辛辛苦苦做家务或许满国际找钥匙的你是不是感觉腰杆一松?

其实,谷歌的机器人制作并不是一路顺畅。

早在2012到2013年间,谷歌就一口气收买了包含波士顿动力在内的11家机器人公司。

其时,正是安卓体系创始人Andy Rubin在办理谷歌机器人产品线,意识到机器人开展前途无限的谷歌企图加快AI机器人的商业布局。

在其时以软件见长的谷歌在并不擅长的硬件范畴,挑选用收买的方法来最大程度整合技能资源。

谷歌也一度以为,只需有了硬件根底,再加以最擅长的软件一结合,就能处理机器人范畴的技能壁垒。

但是实际运作中却严酷地发现,机器人的运转精确度远远达不到要求。

比方你是一位公司大老板,一位老练技作业业精确率能到达98%,而机器人只需不到90%。

这时你会挑选雇佣一位老练技工仍是购买贵重且易犯错的机器人,并再雇佣一个人监督调整机器人的作业?

其时机器人的精确度能够到达80%-90%,为了终究的10%投入很多资金和人力,却看不到报答。

Andy Rubin爆出丑闻后离开了谷歌,最初收买的企业也土崩瓦解,波士顿更是以低于其时收买估值三倍的价格卖出。

由此可见,软件和硬件设备的制作以及两者的结合,成为机器人制作范畴最为头疼的难题。

那么,在AI大模型热潮之下,这是否会为机器人制作带来曙光?有学习才能的机器人能否完成?

参考资料:

https://techcrunch.com/2024/07/11/watch-a-robot-navigate-the-google-deepmind-offices-using-gemini/

https://www.theverge.com/2024/7/11/24196402/google-deepmind-gemini-1-5-pro-robot-navigation

https://arxiv.org/abs/2407.07775v1

告发/反应
在线客服
服务热线

24小时咨询热线:

4006666666

微信咨询
瓜大郎吃瓜网
返回顶部