首页>正文
科幻!谷歌放出Gemini Robotics-ER 1.5:机器人有了真正的思考力 每日热闻
来源: AI寒武纪 发布于:2025-09-27 09:22:21

谷歌刚刚放出了其最先进的机器人具身推理模型——Gemini Robotics-ER 1.5。这是首个被广泛开放给所有开发者的Gemini机器人系列模型,它将作为机器人的高级推理大脑

Gemini Robotics-ER 1.5(简称 Gemini Robotics-Embodied Reasoning)是一种视觉-语言模型 (VLM),可将 Gemini 的智能体功能引入机器人技术领域。Gemini Robotics-ER 1.5 是一款思考型模型,能够推理物理世界、原生调用工具,并规划逻辑步骤来完成任务

虽然 Gemini Robotics-ER 1.5 与其他 Gemini 模型类似,但它是专门为增强机器人感知能力和现实世界互动能力而构建的。它通过以下方式提供高级推理功能来解决物理问题:解读复杂的视觉数据、执行空间推理,以及根据自然语言命令规划行动


(资料图)

在操作方面,Gemini Robotics-ER 1.5 旨在与现有的机器人控制器和行为配合使用。它可以按顺序调用机器人的 API,使模型能够编排这些行为,以便机器人完成长时程任务

借助 Gemini Robotics-ER 1.5,可以构建以下机器人应用:

让人们能够使用自然语言分配复杂的任务,从而使机器人更易于使用

通过使机器人能够推理、适应和响应开放式环境中的变化,提高机器人的自主性

Gemini Robotics-ER 1.5 为各种机器人任务提供统一的模型:定位和识别对象

1.准确地指向并定义环境中各种项目的边界框。了解对象关系

2.推理空间布局和环境背景信息,以便做出明智的决策。规划抓取和轨迹

3.生成用于操纵物体的抓取点和轨迹。解读动态场景

4.分析视频帧,以跟踪对象并了解一段时间内的动作。编排长时程任务

5.将自然语言命令分解为一系列逻辑子任务,并对现有的机器人行为进行函数调用。人机交互

6.通过文本或语音理解以自然语言给出的指令

Gemini Robotics-ER 1.5预览版现已开放。可以通过以下方式开始体验:

启动 Google AI Studio 来实验该模型。阅读开发者文档获取完整的快速入门和API参考

https://ai.google.dev/gemini-api/docs/robotics-overview?utm_source=gemini-robotics-er-1.5&utm_medium=blog&utm_campaign=launch&hl=zh-cn

官方的 Colab notebook 查看实际应用案例

https://github.com/google-gemini/cookbook/blob/main/quickstarts/gemini-robotics-er.ipynb?utm_source=gemini-robotics-er-1.5&utm_medium=blog&utm_campaign=launch

完整技术报告:

https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf

这个模型专为那些对机器人来说极具挑战性的任务而设计。

想象一下,你对一个机器人说:“请把这些物品分类到正确的厨余、可回收和普通垃圾桶里。”

要完成这个任务,机器人需要:1.上网查找本地的垃圾分类指南。2.理解眼前的各种物品。3.根据本地规则规划出分类方法。4.执行所有步骤,完成投放。

像这样的日常任务,大多需要结合上下文信息并分多步才能完成。

Gemini Robotics-ER 1.5正是首个为这种具身推理(embodied reasoning)而优化的思考模型。它在学术基准和内部基准测试中都达到了业界顶尖水平

Gemini Robotics-ER 1.5有哪些新能力?

Gemini Robotics-ER 1.5专为机器人应用进行了目标性微调,并引入了多项新功能:

快速强大的空间推理:以Gemini Flash模型的低延迟,实现顶尖的空间理解能力。该模型擅长生成语义精确的2D坐标点,这些坐标点基于对物品尺寸、重量和功能可供性的推理,从而支持如“指出所有你能拿起的物体”这类指令,实现精确、快速的交互

协调高级智能体行为:利用先进的空间和时间推理、规划和成功检测能力,可靠地执行长周期任务循环(例如,“按照这张照片重新整理我的书桌”)。它还能原生调用谷歌搜索和任何第三方自定义函数(例如,“根据本地规定将垃圾分类”)

灵活的思考预算:开发者现在可以直接控制模型的延迟与准确性之间的权衡。这意味着,对于像规划多步组装这样的复杂任务,你可以让模型“思考更长时间”;而对于探测或指向物体等需要快速反应的任务,则可以要求更快的响应

改进的安全过滤器:模型在语义安全方面进行了改进,能更好地识别并拒绝生成违反物理约束的计划(例如,超出机器人的有效载荷能力),让开发者可以更自信地进行构建

智能大脑

你可以将Gemini Robotics-ER 1.5视为机器人的高级大脑。它能理解复杂的自然语言指令,对长周期任务进行推理,并协调复杂的行为。

当收到一个像“把桌子收拾干净”这样的复杂请求时,Gemini Robotics-ER 1.5能将其分解成一个计划,并调用正确的工具来执行,无论是机器人的硬件API、专门的抓取模型,还是用于运动控制的视觉-语言-行为模型(VLA)。

高级空间理解能力

为了与物理世界互动,机器人必须能够感知和理解其所处的环境。Gemini Robotics-ER 1.5经过微调,能够生成高质量的空间结果,为物体提供精确的2D坐标点

在指向精度方面,Gemini Robotics-ER 1.5是目前最精确的视觉语言模型

例如,在2D坐标点生成任务中,给定一张厨房场景的图片,模型可以提供每个物品的位置

提示:

值得注意的是,提示要求模型只标记图中出现的物品,这可以防止模型产生幻觉(比如为不存在的“独角兽”生成坐标),使其始终基于视觉现实

时间推理能力

真正的时空推理不仅要定位物体,还要理解物体与行为之间随时间展开的关系。

Gemini Robotics-ER 1.5通过处理视频来理解物理世界中的因果关系。

例如,在一个视频中,机械臂先将一支绿色记号笔放入木盘,再将蓝色和红色的笔放入笔筒。当我们要求模型按顺序描述任务步骤时,它给出了完全正确的答案

提示:

响应:

[ { "start_timestamp": "00:02", "end_timestamp": "00:13", "description": "左机械臂从桌上拿起绿色记号笔,并将其放入木盘中。" }, { "start_timestamp": "00:15", "end_timestamp": "00:22", "description": "左机械臂从桌上拿起蓝色笔,并将其放入黑色网状笔筒中。" }, { "start_timestamp": "00:23", "end_timestamp": "00:28", "description": "右机械臂从桌上拿起红色笔,并将其放入黑色网状笔筒中,完成了整理书写工具的任务。" } ]

模型甚至可以根据要求,对特定时间段(如第15秒到22秒)进行更细致的逐秒分解,输出结果在时间上非常精确

基于可操作性推理来协调长周期任务,

当启用思考功能时,模型可以对复杂的指向和边界框查询进行推理。下面是一个制作咖啡的例子,展示了模型如何理解完成任务所需的“如何做”和“在哪里做”

  1. 1. 问: 我应该把杯子放在哪里来冲咖啡?答: 模型:在咖啡机下方标记出一个边界框

  2. 2. 问: 咖啡胶囊应该放在哪里?答: 模型:在咖啡机顶部的胶囊仓位置标记出边界框

  3. 3. 问: 现在,我需要关上咖啡机。请绘制一条由8个点组成的轨迹,指示盖子把手应如何移动以关闭它答: 模型:生成了一条从开启到关闭位置的精确路径

  4. 4. 问: 我喝完咖啡了。现在应该把杯子放在哪里清洗?答: 模型:在水槽中标记了一个点

通过结合规划和空间定位,模型可以生成“空间锚定”计划,将文本指令与物理世界中的具体位置和动作联系起来

灵活的思考预算

下图展示了调整Gemini Robotics-ER 1.5模型思考预算对延迟和性能的影响

模型的性能随着思考token预算的增加而提升。对于像物体检测这样的简单空间理解任务,很小的预算就能达到高性能;而更复杂的推理任务则需要更大的预算

这使得开发者可以在需要低延迟响应的任务和需要高精度结果的挑战性任务之间取得平衡。开发者可以通过请求中的thinking_config选项来设置思考预算,甚至禁用它

参考:

https://developers.googleblog.com/en/building-the-next-generation-of-physical-agents-with-gemini-robotics-er-15/

关键词: 调用 轨迹 推理 谷歌 机器人 大模型 知名企业 gemini robotics

猜你喜欢

  • 慈文传媒:推进短剧出海,整合海内外平台资源_快播
  • 金亭汽车线束取得一种保险丝盒盲栓插接方法及保险丝盒相关专利
  • 国安达:公司已成功研发换流站及变电站固定式自动灭火系统 关注
  • 佩德里金球第11引西班牙国内不满,西班牙记者只给球员排第9
  • 焦点速读:连云港海州首届“村乒”燃情开赛​
  • 观天下!一台“村晚”串起青岛崂山区王哥庄农文旅链条 2025年曲家庄省级村晚示范展演成功举办
  • 焦点热文:如何在银行中进行资产配置的优化?
  • 3000㎡空间藏民生温度!盐城亭湖以“四维定位”激活基层治理新动能_当前热门
  • 赋能警心 守护平安!滨州公安心理服务送教基层行温暖启航
  • 从 “学霸” 到 “厌学”,孩子只用了半年:毁掉她的竟是妈妈这一习惯,90% 家长仍还在做!|百事通
  • 北航机器人研究所名誉所长王田苗:智能定界将催生头部的新势力创业公司产生
  • 如何利用保险产品进行财富管理?-今日热议
  • 每日看点!零跑汽车回应因业务纠纷被强制执行报道:正积极磋商,推动妥善解决
  • 精选!零跑汽车回应成失信被执行人:已支付361万,车辆过户事项在协商
  • 当前热门:【青春华章·向西而歌】捐房到祖国西北“扎根”!这对西迁伉俪的“神仙情”在家更在国
  • 今日讯!松滋消防开展商场开业前指导帮扶工作
  • 格力电器:董明珠健康家在全国已建设970多家 消费者对非空调品类关注度和购买量增长显著
  • 美国8月PCE同比上涨2.7% 符合市场预期|每日速读
  • 今日热门!欧洲六代机项目陷僵局 德法因主导权之争互不让步
  • 银行的投资分析报告对决策有何帮助? 热点聚焦