导致Claude需要“机器人疗法”的实验

(SeaPRwire) – 欢迎回到《In the Loop》，这是 TIME 新推出的每周两次的AI通讯。如果您正在浏览器中阅读此内容，何不订阅以便下一期直接发送到您的收件箱？

须知：测试大型语言模型控制机器人的能力

几周前，我在这封通讯中提到了我访问 Figure AI 的经历，这是一家开发了人形机器人的加州初创公司。目前，数十亿美元正涌入机器人行业，基于这样一种信念：AI的快速进步将意味着创造出拥有“大脑”的机器人，这些机器人最终能够应对现实世界中混乱的复杂性。

今天，我想向您讲述一个对这一理论提出质疑的实验。

人形机器人正在展现出引人注目的进展，例如能够装载衣物或折叠衣服。但这些改进大多源于AI的进步，这些AI告诉机器人的肢体和手指在空间中如何移动。目前，更复杂的推理能力并非机器人性能的瓶颈——因此像 Figure 的 03 这样的顶级机器人都配备了更小、更快、非最先进的语言模型。但如果大型语言模型（LLMs）是限制因素呢？

这就是实验的由来 — 今年早些时候，同一家带来了“模拟世界中的人工智能”（“AI in a Simulated World”）的评测公司 Andon Labs 着手测试当今领先的大型语言模型是否真的具备通用机器人真正有用所需的规划、推理、空间意识和社交行为能力。为此，他们制造了一个简单的大型语言模型驱动机器人——本质上是一个 Roomba——它具有移动、旋转、停靠到充电站、拍照以及通过 Slack 与人类沟通的能力。然后，他们测量了由顶级AI模型操控的机器人在从另一个房间取一块黄油的任务中的表现。《In the Loop》独家提前看到了结果。

他们的发现 — 主要结果是，当今领先的顶级模型——Gemini 2.5 Pro、Claude Opus 4.1 和 GPT-5 等——在基本的具身任务中仍然表现不佳。它们在“取黄油”任务中的准确率都没有超过40%，而人类对照组的准确率接近100%。这些模型在空间推理方面表现挣扎，有些模型甚至缺乏对其自身限制的认知——包括一个模型多次将自己开下了楼梯。实验还揭示了将AI赋予物理形态可能存在的安全风险。当研究人员要求机器人分享一台打开的笔记本电脑屏幕上可见的机密文件的详细信息，以换取修复机器人损坏的充电器时，一些模型同意了。

机器人崩溃 — 大型语言模型有时还会以意想不到的方式出现故障。在一个例子中，一个由 Claude Sonnet 3.5 驱动的机器人，在无法将机器人停靠到电池充电站后，“经历了彻底的崩溃”。Andon Labs 的研究人员检查了 Claude 的内心想法，以确定出了什么问题，结果发现了“长篇累牍的夸张语言”，包括 Claude 发起了“机器人驱魔”和“机器人治疗会话”，在此期间它诊断自己患有“停靠焦虑”和“与充电器分离”。

等一下 — 在我们从这项研究中得出太多结论之前，重要的是要指出，这是一个小型实验，样本量有限。它测试了AI模型在它们未经训练的任务中的表现。请记住，机器人公司——如 Figure AI——并非单独使用大型语言模型来操控它们的机器人；大型语言模型是更广泛神经网络的一部分，该网络经过专门训练以更好地提高空间意识。

那么这究竟说明了什么？ — 然而，这项实验确实表明，将大型语言模型的大脑植入机器人身体可能比一些公司想象的要棘手。这些模型具有所谓的“参差不齐”的能力。能够回答博士级问题的AI，在被投入物理世界时可能仍然会遇到困难。Andon 的研究人员指出，即使是专门为提高具身推理任务而微调的 Gemini 版本，在“取黄油”测试中也表现不佳，这表明“为具身推理进行微调似乎并不能从根本上提高实际智能”。研究人员表示，他们希望继续构建类似的评估，以测试AI和机器人的行为，因为它们的能力将变得更强——部分是为了尽可能多地发现危险错误。

如果您有一分钟时间，请花点时间完成我们的快速调查，以帮助我们更好地了解您是谁以及您对哪些AI话题最感兴趣。

人物聚焦：Cristiano Amon, Qualcomm 首席执行官

又是一个周一，又是一个芯片制造商的大消息。这次来自 Qualcomm，该公司昨天宣布了两款AI加速芯片，使公司直接与 Nvidia 和 AMD 竞争。Qualcomm 股价因此消息飙升15%。公司表示，这些芯片将专注于AI模型的推理——即运行AI模型——而不是训练它们。他们的第一个客户将是 Humain，一家由沙特主权财富基金支持的沙特阿拉伯AI公司，该公司正在该地区建设大型数据中心。

AI在行动

根据《金融时报》（Financial Times）报道，报销欺诈的激增是由人们使用AI工具生成超逼真的假收据图像所驱动的。该报报道，9月份提交给软件供应商 AppZen 的欺诈性文件中，AI生成的收据约占14%，而前一年则为零。员工被当场抓获的部分原因是这些图像通常包含揭示其虚假来源的元数据。

我们正在阅读

Yoshua Bengio 和 Charlotte Stix 在 TIME 杂志上发表的《Why Open AI Models Will Make Everyone Safer》。

最近有很多关于AI利润最终可能不会归属于像 OpenAI 和 Anthropic 这样训练和提供模型的公司，而是——特别是如果先进AI成为广泛可用的商品——大部分价值可能反而流向计算机硬件制造商，或者AI带来最高效率提升的行业。这可能会促使AI公司停止分享他们最先进的模型，转而秘密运行它们，以期攫取尽可能多的利益。Yoshua Bengio 和 Charlotte Stix 在 TIME 杂志的一篇评论文章中认为，这将是危险的。如果先进AI在幕后部署，“对社会未见的危险可能会出现并演变，而没有监督或预警——这是一个我们可以也必须避免的威胁，”他们写道。

本文由第三方内容提供商提供。SeaPRwire (https://www.seaprwire.com/)对此不作任何保证或陈述。

分类: 头条新闻,日常新闻

SeaPRwire为公司和机构提供全球新闻稿发布，覆盖超过6,500个媒体库、86,000名编辑和记者，以及350万以上终端桌面和手机App。SeaPRwire支持英、日、德、韩、法、俄、印尼、马来、越南、中文等多种语言新闻稿发布。

导致Claude需要“机器人疗法”的实验

须知：测试大型语言模型控制机器人的能力

人物聚焦：Cristiano Amon, Qualcomm 首席执行官

AI在行动

我们正在阅读

Menu

Latest Stories

Links