
近年来,企业级AI代理(AI agent)正在承担越来越复杂、长周期的工作任务。然而,一个隐藏在模型背后的工程瓶颈逐渐浮出水面——那些连接大模型与真实环境的“脚手架”(harness)往往由人工静态编制,无法自动从执行数据中学习改进。小米研究院提出的HarnessX框架,通过将AI脚手架视作可组合、可自动进化的对象,首次实现了从“人工调参”到“系统自进化”的跨越。这项技术不仅让模型在各类任务中获得显著的效率提升,更颠覆了“只有大模型才能胜任复杂任务”的传统认知。本文将从工程挑战、核心技术、实际性能到行业影响,全面解读HarnessX如何改写AI系统优化的游戏规则。
静态脚手架:被忽视的效率提升瓶颈
在AI应用落地中,一个基础模型的真实能力不仅取决于其参数规模和训练数据,更依赖于它周围那层看不见的“脚手架”——也就是AI系统用来将模型原始输出转化为结构化、可执行行为的软件层。这个脚手架包含了提示词模板、外部工具接口、记忆管理模块和控制流程等关键组件。它决定了AI如何观察环境、如何进行推理、如何采取行动。
然而,当前绝大多数AI系统的脚手架都采用静态、手工编写的方式。一旦底层模型升级、引入新工具或业务领域发生转换,工程师就需要大量改写代码。这种“硬编码”模式带来了三个致命问题:
第一,缺乏自学习能力。 传统脚手架无法从过往的执行经验中自动提炼改进策略。当系统出错时,工程师往往需要手动复盘日志,猜测问题根源并打补丁。这种“打地鼠”式的维护方式,使得效率提升依赖于人力投入而非系统进化。
第二,架构高度耦合。 提示词模板、工具调用、失败重试策略和记忆管理被揉杂在同一段代码路径中。调整一个组件可能无声无息地破坏其他功能。跨领域复用脚手架时,往往只能通过“复制粘贴”来适配,导致代码膨胀且难以维护。
第三,模型与脚手架被割裂优化。 工程师在测试脚手架时产生的执行轨迹通常被丢弃,而不是作为训练数据反向改进模型。反之,模型升级后脚手架也得不到自动适配。这种“两张皮”的状况,使得企业团队无法从AI系统的运行数据中捕捉到完整的优化价值。
企业数字化转型中,很多企业投入重金采购大模型,却忽略了脚手架这一隐性成本。实际上,AI工具导航上汇聚的各类框架显示,高效的脚手架设计往往比模型参数更能决定实际效果。

HarnessX:把脚手架变成可自动进化的“第一等对象”
针对上述瓶颈,小米研究团队提出了HarnessX框架。其核心思想可以用一句话概括:将脚手架从“一次性手工艺品”提升为“软件工程中的一等公民”。
在软件工程术语中,“一等公民”意味着该对象可以独立序列化、模块化且可替换。HarnessX将模型配置(使用哪个AI模型)与脚手架配置彻底分离。工程师可以像更换电池一样,无缝替换、适配甚至自动进化脚手架,而无需触碰底层模型。
为了实现这一目标,HarnessX把AI代理的行为拆解为多个原子组件:上下文组装、记忆管理、工具生态、控制流和可观测性。每个具体行为都被实现为一个“处理器”,这些处理器可以插入脚手架生命周期中的精确钩子(lifecycle hooks)。这种极致的模块化设计,使得系统能够动态地增删或替换处理器,而不会破坏整个工作流。
在此基础上,HarnessX引入了一个名为AEGIS的轨迹驱动进化引擎。该引擎将脚手架优化建模为强化学习问题——搜索空间是脚手架中各种符号组件。AEGIS不像传统方法那样只调提示词,而是能够生成代码级别的结构性改动,比如替换工具调用方式、重组控制流程甚至变更记忆策略。
研究人员特别防范了三种强化学习中常见的病态行为: - 奖励黑客:系统可能利用捷径而非真正解决问题来获得高分。 - 灾难性遗忘:针对某领域的修复可能破坏另一个领域已经解决的任务。 - 探索不足:系统倾向于对提示词做微小调整,而非探索全新的工具配置结构。
为此,AEGIS采用了四阶段流水线:消化器(将执行轨迹压缩为结构化摘要)、规划器(分析失败模式)、进化器(生成代码级编辑并自测)、批评家与门控(评估修改有效性并防止回归)。这套机制保证了每次进化都朝着更鲁棒的方向迈进。
实测数据:小模型的逆袭与效率提升
HarnessX的效果在15个模型-基准组合的测试中得到了验证:平均性能提升14.5%。更惊人的是,对于中小尺寸的开源模型Qwen3.5-9B,在具身规划任务上性能飙升了44%。这意味着,一个原本被认为能力有限的9B参数模型,通过自动优化的脚手架,在特定任务上可以媲美甚至超越百亿级大模型。
这一发现对当前AI赛道的竞争格局具有重要意义。长久以来,行业普遍遵循“参数越大越强”的逻辑,企业争相采购千亿甚至万亿参数的闭源大模型,导致AI投资急剧膨胀。但HarnessX的实验结果表明:扩展基础模型并不是提升AI能力的唯一路径——对于中小模型而言,它甚至可能不是最佳路径。
举个具体的例子:在软件工程任务中,HarnessX自动发现原有脚手架的工具调用策略存在冗余步骤,进化为更简洁的并行调用模式;在网络交互任务中,它重构了记忆管理模块,使模型能更精准地回溯上下文。这些改进仅靠模型本身是无法实现的。
值得注意的是,HarnessX的价值不仅体现在端点性能上。由于脚手架进化过程中产生的执行轨迹可以被收集并用于模型微调,系统实际上实现了“脚手架-模型协同进化”。每一次任务执行都在同时优化两个组件,形成正反馈循环。这正是效率提升的持续动力来源。
对AI投资和行业生态的三重影响
HarnessX的出现,很可能改变企业AI部署的成本结构和策略选择。
第一,降低算力依赖。 如果通过优化脚手架就能让中小模型满足多数业务需求,企业就不再需要为每个场景配置顶尖大模型。这直接削减小型厂商的算力开支,使AI投资更加偏向“软件优化”而非“硬堆参数”。
第二,加速开源模型商业化。 Qwen3.5-9B这类开源模型在HarnessX加持下表现出色,意味着企业可以基于开源模型构建专有AI系统,避免被闭源供应商锁定。同时,开源社区可以共享脚手架进化策略,形成“众包优化”生态。
第三,催生新的工程岗位。 传统的提示工程师角色可能被“脚手架工程师”所取代。未来企业需要的不是会调提示词的人,而是能设计可进化脚手架架构的软件工程师。这一趋势与AI Agent技术的普及相辅相成。
当然,HarnessX目前仍处于研究阶段。其在多模态任务、高实时性场景中的表现还有待验证。但无论如何,它已经为行业指明了一个方向:不要只盯着模型的大小,更要关注包裹模型的“壳”。
落地实践:如何用HarnessX实现效率提升
对于技术团队来说,HarnessX提供的不仅仅是一篇论文,更是一套可操作的工程方法论。以下三点是落地时需要重点关注的:
可观测性先行。 HarnessX的进化引擎依赖完整的执行轨迹。如果没有详细的日志和追踪,系统就无法定位失败点。建议部署AI工具箱中的可观测性组件,为每个AI代理任务记录输入、输出、工具调用序列和耗时等数据。
渐进式模块化。 不必一开始就重构全部组件。可以从最频繁出现问题的模块入手——比如工具调用失败率高的场景,将原来的硬编码调用替换为可配置的“工具处理器”,然后交给AEGIS自动优化。
保持模型与脚手架的双向反馈。 不要扔掉进化过程中产生的训练数据。HarnessX支持将执行轨迹转化为微调样本,可以定期用这些数据对底层模型做继续训练。这种协同进化能形成叠加的效率提升效果。
如果你正在寻找快速验证的入口,可以尝试AI画图场景中的脚手架优化——比如将文生图模型的提示词构造、负面提示词管理、图生图链路封装成模块,让AEGIS自动寻找最佳参数组合。或者,在古诗词生成应用中,通过进化记忆模块来提升长篇生成的一致性。
未来展望:AI系统工程的新范式
HarnessX的出现,标志着AI系统开发从“模型中心主义”向“系统中心主义”转移。过去,我们默认模型是能力的来源,工程只是“包装”。但现在我们看到,脚手架本身也可以成为能力的倍增器。
更大的想象空间在于:当所有AI代理的脚手架都能自动进化,并且通过共享进化策略形成“脚手架市场”,那么我们或许会看到一种新形态的AI操作系统——模型只是其中可插拔的CPU,而脚手架才是真正的“操作系统内核”。
对于正在规划AI赛道布局的决策者而言,HarnessX传递的信息再清晰不过:不要在参数军备竞赛中忽略工程的力量。 更聪明的AI投资,可能是先投建一套能自动进化的系统基础设施,再根据需要选择最适合的模型。
事实上,类似理念在深度强化学习中已有萌芽,但HarnessX首次将其系统化、产品化。它证明了“小模型+好脚手架”可以战胜“大模型+劣脚手架”。在AI预算有限的中小企业中,这种组合可能成为最务实的效率提升路径。