P1 intelligence-evolution 问题日志AI工程Synapse

Synapse多智能体体系进化框架:如何让AI团队越用越强

Agent能力卡片周期审计 + Harness规则熵控制 + 情报管线反哺——一套让AI团队具备自我进化能力的机制设计

AI团队的死亡陷阱:为什么你的多智能体系统会越用越差

六个月前,我搭了一个14人的AI执行团队。每个Agent都有明确的职能:有人负责情报搜集,有人负责代码开发,有人负责知识库维护。初始配置完成后,整个系统运转得相当流畅——总裁下达指令,Lysander CEO承接分派,各团队成员执行交付,Slack推送结果。

然后问题在第三个月出现了。情报Agent引用的来源开始变得陈旧,代码Agent对新框架一无所知,Harness规则文件膨胀到500行,充满了互相矛盾的约束。最致命的是:没有任何一个节点在告诉我”系统正在退化”。AI团队不会主动报告自己能力的衰退——它只会按照既有规则继续运转,直到某个任务失败才暴露出来。

这是多智能体系统的核心死亡陷阱:构建容易,进化难。你花了大量精力设计初始配置,但没有任何机制保证系统在时间流逝中保持能力。以下是我们在Synapse体系中解决这个问题的三套机制。

机制一:Agent能力卡片周期审计

我们给每个Agent维护一张能力卡片,存放在 obs/01-team-knowledge/HR/personnel/ 目录下。卡片不是静态简历,而是带时间戳的能力快照:技能清单、最近执行的任务类型、历次QA评分、以及一个关键字段——最后验证日期

每21天,harness_engineer会自动触发 audit_harness() 函数,扫描所有Agent卡片。审计逻辑很简单:如果某个Agent在过去三周内没有执行过某项声明技能对应的任务,该技能标记为”未验证”。超过42天未验证的技能,进入废弃候选池,等待下次人工确认。这套机制强迫系统承认:Agent的能力不是配置出来就永远存在的,它需要被持续使用和验证。

副作用是意外的好处:审计报告直接暴露了资源错配问题。我们发现growth团队的SEO专员三个月没有执行过任何SEO相关任务——全在帮内容组修格式。能力卡片让这种隐性的角色漂移变得可见。

机制二:Harness规则熵控制

规则文件是多智能体系统最容易腐败的部分。每次遇到边缘案例,工程师的本能反应是”加一条规则”。六个月后,CLAUDE.md变成了一堆互相打架的约束,没有人知道哪条规则还在生效。

我们引入了熵增预算机制:CLAUDE.md当前阶段硬性上限350行,超出必须先删减再添加,无例外。每条规则强制标注添加时间戳 # [ADDED: YYYY-MM-DD],超过180天未被重申或测试的规则,自动进入废弃候选。

这套机制背后的工程逻辑是:规则不是免费的。每增加一条规则,Agent在执行时需要消耗更多上下文理解规则间的优先级关系,决策链路变长,出错概率上升。行数上限是一个粗暴但有效的强制函数,逼迫你在添加新规则时必须思考”哪条旧规则可以删掉”。

实操中,我们还引入了P0/P1/P2的规则变更分级。P0约束(CEO执行禁区、决策体系)变更必须在总裁会话中确认,留存变更记录。P1/P2由harness_engineer提案、Lysander批准即可执行。分级的目的是防止高频小变更无意间修改了核心约束——这在快速迭代期间是真实发生过的事故。

机制三:情报管线反哺执行链

这是三套机制里最有意思的一个,也是最容易被忽视的。大多数AI团队的情报摄入是单向的:人类阅读行业资讯,然后手动更新系统提示词。这个频率通常是”想起来就更新”,实际上意味着永远不更新。

我们把情报管线做成了自动闭环。每天上午8点,情报Agent自动搜集AI前沿动态,生成日报并推送HTML到git。10点,情报行动Agent提取日报中的实践建议,经过四位专家Agent评估,通过评审的建议直接由Harness Ops团队执行落地——更新工具配置、调整执行策略、修改能力卡片。

关键设计在于”反哺”而非”摘要”。情报不是给人看的,是给执行链用的。一条关于新型Prompt优化策略的情报,评审通过后,会在24小时内体现在Agent的实际提示词配置里。这把信息处理和系统更新之间的延迟从”人类注意力驱动的随机周期”压缩到了一个工作日。

可复用的设计原则

把这三套机制抽象成原则:第一,能力需要证明,不是声明——Agent技能必须通过实际任务执行来持续验证,未验证的能力不应被信任。第二,规则是负债,不是资产——每条规则都有维护成本,系统越简洁越容易推理,总量控制是必要的工程纪律。第三,情报消费必须产生系统变更——如果情报只输出报告但不触发执行,那它只是增加了人类的阅读负担,而不是让系统变得更强。

这三条原则背后有一个共同的假设:AI团队的能力是动态的,需要主动维护而不是被动等待衰退。没有这个假设,你的多智能体系统只是一个精心配置的初始状态,时间会把它变成技术债。

如果你在构建AI工程团队,欢迎参考我们开源的 Synapse 框架——能力审计、规则熵控制、情报反哺的完整实现都在里面。