您现在的位置：首页 > 科技动态 > 三城一区 > 中关村科学城 > 城区动态

“机器人保姆”时代来临？银河通用TrackVLA大模型实现零样本自主导航

发布时间：2025-06-03

信息来源：中关村科学城微信公众号字体：大中小

打印

发布时间：2025-06-03

信息来源：中关村科学城微信公众号

这个儿童节

一段机器狗在超市里

灵活跟随母子、躲避人流的视频

在社交平台悄然走红

许多网友惊叹

“它怎么知道谁是妈妈，谁是孩子？”

“不靠遥控也能自己找人？！”

这不是摆拍，而是海淀企业北京银河通用机器人有限公司（以下简称“银河通用”）在儿童节当天发布的其自主研发的产品级端到端导航大模型——TrackVLA。据工作人员介绍，这款具备纯视觉感知、强泛化推理和零样本（Zero-Shot）能力的具身大模型，正在将“机器人自主跟随移动”从实验场景真正带入日常生活。

一双眼睛+一个大脑

重新定义机器人导航范式

据介绍，TrackVLA大模型拥有“从听见到看懂再到行走”的完整闭环能力，靠一双眼睛看世界、靠一个“大脑”做决策，无需提前建地图、不依赖遥控控制，就能实现自主感知、自主推理、自主行动，属于典型的视觉-语言-动作（Vision-Language-Action，VLA）模型。

与传统机器人分开处理

“视觉感知→目标识别→路径规划”相比

TrackVLA把这些能力

通过一个统一模型整合

更重要的是

TrackVLA不依赖特定硬件形态

具有极强的跨本体应用能力

“TrackVLA大模型不仅可以部署在四足机器人上，也可以部署在轮式机器人、双足机器人甚至飞行机器人上。换句话说，只要有‘眼睛’和‘腿’，它就能工作。”银河通用产品总监朱辉告诉记者，很多人第一次听到“端到端大模型（End-to-End Model）”这个词时，会觉得陌生。

简单理解

它就像一个一体化的大脑系统

从“输入图像”

直接推理出“怎么走”

中间不需要人为拆分多个步骤

八大核心能力

从认妈找娃到宠物跟随

在超市中穿梭于人流和货架之间，准确跟随母子；根据语音指令切换目标，并在儿童玩耍时发出提醒；从电梯进入陌生商场，完成连续跟随任务；在人群密集的服装店中稳定识别并避让他人干扰；在目标消失后迅速分析并重新定位……

在官方发布的公开测试视频中，TrackVLA展现了令人惊艳的实用能力。机械狗通过“跟着妈妈”“换成孩子”等自然语言指令切换跟随目标，在服装店中准确追踪特定顾客，即使对方更换外套仍能识别，当目标短暂消失后，能通过运动轨迹预测重新定位，不仅能跟人，还能识别并跟随宠物狗等非刚性运动目标，在儿童游乐区自动识别玩具、水渍等风险并规划安全路径。

“八大核心能力的协同作用，使TrackVLA成为目前最具实用价值的机器人自主导航解决方案，将为智能陪伴、安防巡检等多个领域带来革命性变化。随着技术的持续迭代，未来这些能力还将在更多应用场景中展现价值。”朱辉说道。

未来已至

温暖可感

在这个儿童节

我们看到了一个

不一样的“机器人陪伴者”

他不只是一个冰冷的机器

而是一个

能看、能懂、能守护的智能伙伴

TrackVLA不是孤立的技术突破

而是银河通用立足海淀

推进“通用具身智能机器人”

落地过程中的重要一环

接下来

TrackVLA将出现在

更多不同形态的机器人本体上

驱动具身智能

迈向更加广阔的行业场景应用