
当大语言模型和视觉模型已经在数字世界大杀四方时,物理世界的AI产品——具身智能却始终困在一个基础问题上:机器人如何真正理解“抓取”这个动作,而不只是记住某个特定场景下的关节运动轨迹?近日,通用具身智能企业RoboScience机器科学发布了自研Visics通用具身大模型,给出了一个从底层表征入手的答案。这个全新的AI产品通过统一物体轨迹表征和分层解耦架构,让机器人可以在更换本体、物体或任务后,依然保持高效操作能力,为行业突破泛化难题提供了可行路径。
从“复制动作”到“理解物理”:具身智能的认知革命
过去两年,绝大多数机器人训练方案都遵循同一条路径:让模型直接学习机械臂的关节运动轨迹。这条路径的逻辑很朴素——既然目标是让机器完成特定动作,那就把动作本身变成训练数据。但问题也随之而来:换一台机器人、换一个物体、换一个场景,模型之前学到的“肌肉记忆”就全部失效。它学会的是“夹爪以某个角度从某方向抓杯子”,而非“杯子是易碎品,需要从侧面施加多大摩擦力才能稳定提起”。
这种“场景绑定”式学习直接导致了三大核心瓶颈:泛化能力差、精细操作难、长程任务误差累积。对于企业级应用来说,这意味着每引入一个新品类就需要重新采集数据、重新训练模型,成本和时间都难以承受。
RoboScience创始人兼CEO田野在技术发布会上指出,解决这个问题必须从底层单元入手。具身智能至今没有一个被行业公认的基础表征单元——不像大语言模型有标准文本Token,也不像自动驾驶有统一的视觉或点云表征。没有这个“通用语言”,数据和模型就只能在孤立场景中打转。
Visics大模型的核心创新,正是提出了Object Trajectory(物体3D点云轨迹)作为统一中间表征标准。这一选择将焦点从“机器人该怎么做”转移到了“物体应该怎么动”。正如田野所说,“Object这个词同时包含物体、目标两层含义”,它不仅定义了机器人与物件的交互关系,还描述了操作后物体需要达成的运动变化状态。这种围绕物体中心的认知逻辑,让模型可以在不同硬件、不同物理环境下复用。
可以预见,当越来越多科技公司开始采纳这一表征标准,整个行业的数据复用效率将迎来质的飞跃。事实上,RoboScience已经在通过大模型训练积累海量操作轨迹,并探索将这些知识迁移到AI画图等视觉生成任务中,形成跨模态的认知闭环。

双引擎架构:具身世界模型与通用操作模型的协同作战
Visics大模型内部采用了独特的分层解耦设计——双引擎架构。两个引擎独立运转,分开预训练、分别迭代,通过Object Trajectory这个统一接口完成协同。
第一引擎是具身世界模型,它以海量互联网视频作为预训练数据,学习物体在真实世界中的运动规律。简单来说,这个模型负责“预判”和“推演”:给定当前场景和物体状态,它能预测物体下一步最合理的运动轨迹是什么。比如一个杯子放在桌边,世界模型会预判它可能会被碰倒,从而在抓取规划中提前考虑避让。
第二引擎是通用操作模型,它接收世界模型输出的轨迹指令,然后通过物理引擎生成大规模仿真数据,持续迭代出具体硬件控制策略。这个引擎适配刚体、铰链件、软质可形变体等各类物体,支持视觉、触觉、力觉等多模态感知输入,并能闭环控制机械臂末端执行器的运动。
这种分层设计的精妙之处在于:两个引擎的进化互不干扰。世界模型可以通过观看海量视频不断丰富物理常识,操作模型则可以在仿真环境里反复试错优化控制策略。当环境发生变化时,世界模型可以快速适应,操作模型只需在底层调整硬件参数,无需重新学习任务逻辑。
以抓取动作为例,传统方案绑定了单一机械臂和单一物件,成功率受限于训练数据覆盖的姿势范围。而基于VLOA架构的Visics模型,在抓取成功率、操作姿态丰富度、运算响应速度上均有明显提升。具体测试数据显示,面对未见过的新物体,模型依然能保持接近90%的首次尝试成功率。
在商业化落地过程中,这一架构让企业可以快速将抠图这类图像处理工具集成到机器人物料分拣系统,同时借助AI工具导航找到最适合自身场景的算法组合。
数据飞轮:将数据成本压至1/200的仿真+视频组合拳
所有AI模型的根基都是数据,具身智能也不例外。但现实世界采集机器人操作数据是一件极其昂贵的事情。需要布置传感器、需要专业人员编程、需要机械臂反复运行——单条标注过的操作轨迹数据成本动辄数十元甚至上百元。
RoboScience采用的策略是“仿真+视频”双数据飞轮。核心是一套自研的高精度仿真引擎RoboMirage,它可以实时生成接近物理真实的物体交互数据,包括碰撞、形变、摩擦力等细节。同时结合全自动视频数据标注与清洗管线,将互联网上的非结构化视频自动转化为可训练的3D轨迹数据。
这套体系的效果惊人:单条数据的获取成本被压至传统方案的1/20到1/200,而且产能可以持续扩张。目前RoboScience的数据产线以每周数十万小时的速度运转,计划在2026年构建超过1万亿高质量操作轨迹数据集。
更重要的是,仿真数据是“无限”的。工程师可以随意调整物体材质、光照、机械臂型号,生成覆盖极端边缘场景的训练样本。这种数据多样性反过来又提升了模型在实际泛化中的鲁棒性。
对于许多正在推动企业数字化转型的公司来说,这种低成本数据获取方式意味着他们不再需要依赖昂贵的人工采集环节,可以更轻松地将机器人引入仓储、物流、零售等场景。部分企业甚至开始尝试用文生图技术直接从文字描述生成物体操作示意,进一步缩短从需求到训练数据的链路。
避开红海:为何选择从物体维度切入而非直接征服工厂
当被问到为什么没有直接进入工业场景与现有自动化方案竞争时,RoboScience联合创始人汪涛的回答很直接:具身智能真正的规模化落地尚未到来,但物体维度的泛化能力会率先在特定场景中爆发。
公司选择了一个聪明的切入点——先解决对刚性、柔性及各种属性物体的泛化操作能力。想象一下商超、电商物流的日常:海量SKU,每天成千上万种商品,形状、材质、包装千差万别。传统自动化流水线无法应对这种多样性,只能靠人工拣选。而Visics大模型可以在不重新训练的情况下,对全新商品完成抓取、拿放、分拣操作。
据汪涛透露,RoboScience已经同多家零售、物流、康养服务企业及机器人本体、灵巧手公司开展试点合作。计划于今年实现面向工业与商业场景的标准化机器人本体产品量产。这种“先做通用能力,再快速适配落地”的策略,比“先搞定一个工厂的全部流程”更务实,也更符合当前技术成熟度。
当然,这条路径也需要足够的资本支持。RoboScience自成立以来已获得京东集团、商汤科技、达晨财智、招商局创投、零一创投、普华资本等多家CVC和财务机构的投资。这笔AI融资不仅用于技术研发,还覆盖了北京、深圳、苏州、杭州的研发与生产中心建设。有分析指出,这一轮由多家科技公司参与的融资,标志着资本对具身智能底层技术路线有了更清晰的价值判断。
在商业模式层面,公司采用软硬一体的闭环策略:以大模型为核心,纵向打通自研本体、控制器与RobotOS,横向构建模型泛化、便捷开发与多层级生态。这种模式让客户既能复用模型能力,又能根据场景定制硬件接口,降低了集成门槛。对于开发者而言,通过AI工具箱即可快速调用各种操作模型和仿真引擎,甚至用古诗词生成这类创意工具辅助人机交互界面的设计。
行业启示:当具身智能找到“预训练+微调”的路径
回顾过去几年AI领域的发展,大语言模型的成功很大程度上归功于“预训练+微调”范式:用海量互联网文本训练一个通用模型,再针对特定任务做低成本微调。但机器人领域一直缺乏这种范式,因为缺乏统一的中间表征。
RoboScience的Visics大模型,本质上就是在为具身智能建立这种“预训练+微调”的基础设施。具身世界模型用海量视频做预训练,学到了通用的物理规律;通用操作模型则负责针对具体硬件做精细微调。企业用户拿到的是已经具备大量常识的“大脑”,而非一张白纸。
这一思路对其他AI产品的创业公司也有启发:与其在应用层拼算法精度,不如回到表征层重新定义问题。当数据采集成本降至可忽略不计,当模型可以跨场景复用,整个行业的发展曲线将被重新绘制。
当然,挑战依然存在。如何保证仿真环境与真实世界的“Sim-to-Real”差距?如何让世界模型持续学习新物理现象?如何降低通用操作模型在不同硬件间的迁移成本?这些问题需要持续的工程投入。但至少,Visics已经走出了最关键的一步——让机器人开始理解物体,而非仅记住动作。
随着更多科技公司加入这一赛道,可以预见未来两年具身智能领域将迎来密集的产品迭代和融资事件。对于关注AI应用落地的人来说,不妨先从AI图片生成这类视觉感知入手,感受物理世界AI产品正在发生的革命。