8月16日消息,研究机构Ai2现已在GitHub开源了旗下MolmoAct机器人“行动推理模型”(ActionReasoningModel,ARM)模型,该模型主要运用于具身机器人场景,号称可以解决机器人在三维空间中的动作规划与理解问题。
据介绍,与传统仅依赖文字描述推导动作的视觉语言行动模型(VLA)不同,MolmoAct旨在克服语言难以完整表达三维环境深度和距离关系的不足。因此MolmoAct在第一阶段会首先生成由VQVAE预训练得到的空间感知Token,相应Token同时包含几何结构与位置信息,可用于评估物体间的距离,并为后续规划提供基础。
而在第二阶段,模型会在图像空间中生成一系列路径点,作为任务的中间目标,直观展示动作展开的顺序。第三阶段,路径点会被转化为机器人末端执行器或机械爪的低层马达指令,并根据机器人运动学配置进行动作解码。
研究团队指出,在名为SimplerEnv的模拟测试环境中,MolmoAct-7B在训练集未见过的任务中达到了72.1%的成功率,优于PhysicalIntelligence、谷歌、微软和英伟达等实验室的对照模型。在LIBERO模拟平台的多任务与终身学习测试中,经过高效参数微调,平均成功率提升至86.6%。同时,相比业界AI机器人大模型,MolmoAct的训练成本更低:预训练仅使用了2630万样本和256颗H100GPU,大约1天即可完成;微调则只需64颗H100,约2小时即可完成。
此外,为降低机器人操作风险并提升可解释性,MolmoAct在执行动作前会将内部规划的运动轨迹叠加到输入图像上,用户可以直接查看并修正动作方案。同时,用户还可以通过平板等设备使用手绘方式标注目标姿态或路径,模型会即时整合这些标注进行一系列调整。
目前,Ai2已在GitHub同步开源了MolmoAct-7B的完整资源(https://github.com/allenai/MolmoAct),官方强调,这些资源与工具可以帮助其他研究团队在不同机器人平台和任务中充分验证与优化。
下一篇: 最后一页
GPT-4.5发布:情商和无监督学习能力提升、“胡说八道”幻觉现象减少。
2025-03-12
2025-03-29
Mcp-Server-Chatsum:基于MCP协议的微信消息总结机器人
2025-04-15
2025-07-14
原生集成GitHub,让AI成为协作者,Claude企业版馋哭个人开发者
2025-07-19
对话凯文·凯利:不必过多担忧,AI变强后,人类只需专注于“玩”
2025-08-04
You.com与Perplexity AI的比较,哪个更好?
2025-02-25
2025-03-20
2025-04-06
即梦AI上线3.0版本:中文文字控制能力炸裂,直接将设计师干失业了
2025-04-24