您现在的位置：首页 > 科技动态 > 一区多园 > 园区动态

登顶两项国际权威榜单！海淀AI企业，发布全新通用世界行动模型——

发布时间：2026-05-06

信息来源：北京海淀微信公众号字体：大中小

打印

发布时间：2026-05-06

信息来源：北京海淀微信公众号

长期以来，具身智能机器人始终面临一个核心行业痛点：感知、规划、执行环节相互割裂，要么能看懂环境却做不好精准动作，要么能完成简单操作却不会预判环境变化，始终难以在真实场景中稳定完成复杂连续任务。

近日，海淀人工智能企业生数科技正式发布通用世界行动模型Motubrain。作为公司在世界模型方向的重要里程碑，Motubrain定位于具身智能机器人的通用大脑，具备多本体适配、多任务泛化和长程任务执行能力，能够支撑机器人在家庭、工业、商业等真实场景中，更稳定地完成连续复杂任务，为具身智能从实验室走向真实世界提供了全新技术路径。

核心技术突破：

统一建模打通感知与行动底层壁垒

Motubrain的核心突破，在于将“看到的世界”和“要执行的动作”放入同一个模型中统一建模，让机器人不仅能理解环境，也能想象/预测环境变化，并生成可执行的行动策略。

具体来看，Motubrain基于原创的UniDiffuser框架统一建模视频与动作两类连续模态，使模型能够同时学习环境变化、动作执行与任务结果之间的关系。通过一次训练，Motubrain即可支持VLA、视频生成、逆动力学模型、视频－动作联合预测等多种能力，不再依赖多个模型分别完成感知、预测、规划和执行。

在此基础上，Motubrain进一步构建了视频、动作与语言协同的三流MoT架构，融合已有多模态预训练模型和专家模型能力，使模型能够同时完成场景理解、语言指令遵循、结果预测和动作生成。相比传统方法中感知、规划、执行各环节相互割裂的方式，Motubrain以统一架构打通完整任务链路，从而具备更强的语义理解能力、指令遵循能力和端到端行动能力。

更重要的是，统一建模让Motubrain能够从更广泛的数据中持续学习。它不仅可以吸收完整的机器人任务轨迹数据，也能够利用缺少动作标注的视频数据、缺少语言指令的任务无关数据，以及来自不同机器人本体的视频、动作和语言数据。相比传统VLA主要依赖特定机器人本体上的任务轨迹数据，Motubrain打破“数据墙”，充分利用海量异构数据，具有更强的可扩展性和泛化能力。

四大核心能力：

覆盖全场景的通用机器人行动能力

Motubrain不只是让机器人“学会执行动作”，而是让机器人具备理解世界、预测世界并作用于世界的能力。围绕这一目标，Motubrain形成了四项关键能力。

一脑多能，应对多种任务。Motubrain能够在多任务场景中保持稳定表现，不再局限于单一任务训练。随着任务数量持续增加，任务之间的共享世界知识越多，模型的平均任务成功率也同步提升，展现出更强的多任务统一能力与泛化能力。

一脑多型，适配多种本体。Motubrain并不是为某一种机器人量身定制，而是面向多机器人本体设计的统一智能底座。它具备多本体适配能力，打破了“一个机器人一个模型”的传统模式。模型能很好地利用异构数据，随着生态内机器人种类、场景和数据不断丰富，模型能力还能够持续提升，形成更强的通用性，并进一步反哺生态内每一类机器人的表现。

一脑贯通，长程任务一步完成。Motubrain能够直接学习完整任务链路，无需上层规划、任务拆解、快慢双系统或多模型拼接，在复杂长程任务中实现更高的成功率。一个World Action Model即可完成 10个原子动作级别的复杂长程任务，而不止停留在2～3个原子动作的Demo展示。机器人面对的，不再只是一个个孤立动作，而是一项需要持续推进、完整闭环的任务。

一脑预见，实现动态决策。Motubrain不只是执行指令，更能够理解世界并预测环境变化，并据此推演更合理的动作与运动路径。通过将理解世界、预测世界和执行动作统一建模，模型能够在动态场景中持续判断、调整与行动，实现“预测世界，也驱动行动”。

这些能力并不局限于单一环境，而是面向更广泛的真实世界场景展开。在家庭场景中，Motubrain可以支持备餐、整理、服务等连续任务；在工业场景中，可适配分拣、搬运、装配等更复杂的流程操作；在商业场景中，则能够支撑导览、取送、陈列整理、服务协同等多步骤任务执行。

目前，Motubrain已在WorldArena与RoboTwin 2.0两项国际权威榜单上取得第一，验证了“预测世界”与“驱动行动”统一建模的可行性，也标志着生数科技正在进一步推动通用物理大脑从技术探索走向真实世界应用。

双榜登顶：

国际权威榜单实证技术硬实力

Motubrain此次发布最引人瞩目的成绩，是在两个长期被视为“不同能力极点”的国际权威榜单上同时问鼎。其中，WorldArena聚焦世界模型能力，衡量模型是否真正理解和预测物理规律；RoboTwin 2.0聚焦机器人执行能力，衡量模型在复杂、随机环境中的任务执行与泛化能力。

这两个榜单，看似分别对应不同方向，实际上指向的是具身智能最核心的两类能力：一个是看懂世界、预测世界，一个是进入世界、作用世界。

在WorldArena测试中，Motubrain在动作真实度（Motion Quality）、轨迹连贯性（Flow Score）以及物理平滑度（Motion Smoothness）等关键维度均斩获第一，展现出对真实物理运动规律的深刻理解。

在RoboTwin2.0中，Motubrain面对50个复杂任务，平均得分达到96.0，成为榜单上唯一一个在随机环境下平均分超过95的模型，表现出极强的任务执行稳定性与跨场景泛化能力。这意味着，Motubrain的领先并不止于单项能力突破，而是在同一模型框架中更系统地统一了“看懂世界”与“驱动行动”。过去那种“会看不会动”或“能动但缺乏预判”的技术断层，正在被进一步打通。

生态聚力：

推动技术从实验室走向产业落地

从Motus到Motubrain：World Action Model成为具身智能新路径，在世界模型的技术演进中，生数科技坚定选择了一条更前沿，也更具挑战性的路线——World Action Model（WAM）。

技术的高度决定上限，落地的深度决定规模。生数科技相关负责人介绍，Motubrain的意义，不仅在于它验证了“通用机器人大脑”的可行性，也在于它正开始沿着产业路径向真实世界延展。

近期，生数科技已先后与业内领先的具身智能公司无界动力、深朴智能、星尘智能等企业达成战略合作，围绕通用具身智能大脑方向展开协同，持续推进基础模型演进、多模态与具身数据融合、高质量数据体系构建，以及软硬件一体化优化等关键能力建设。

通过与机器人本体、数据、场景和应用生态伙伴的持续联动，生数科技正以通用世界模型重新定义具身智能的技术底座，推动世界模型与机器人系统深度融合，构建面向真实世界应用的开放生态体系。

如果说Motubrain回答的是“通用大脑能不能成立”，那么与具身智能企业的深度联手，则进一步回答了“这样的通用大脑如何走进真实场景”。

这意味着，生数科技正加快形成一条从通用世界模型到机器人本体适配，再到真实场景落地的完整链路。Motubrain不只是一次技术发布，也不只是一次Benchmark成绩刷新，而是生数科技在世界模型方向上，从能力验证走向生态推进、从技术突破走向产业实战的重要节点。