一、最新研究进展

Google DeepMind 联合 MIT,做了一件业界期待已久的事:用 180 组控制实验,定量回答”多 Agent 到底比单 Agent 强多少”。

论文叫《Towards a Science of Scaling Agent Systems》(arXiv: 2512.08296),跨 3 个模型家族(OpenAI、Google、Anthropic)、5 种架构、4 个基准任务。不是理论推导,不是案例论证,这是真金白银烧 token 跑出来的实验数据。

结论一句话:

“More Agents Is NOT All You Need.”

更多的 Agent 不等于更好的结果。在大多数场景下,多 Agent 系统的表现不仅没有显著优于单 Agent,反而因为协调开销而更差。

图片

二、论文里的六个关键数字

这篇论文最大的价值不是观点,是数据。以下是六个关键定量发现,每一个都直接对应我们日常使用中的某种”体感”:

1:工具协调惩罚系数 = -0.330

在论文的 20 参数回归模型中,工具 - 协调交互项是最大的负因子。

翻译成人话:你给多 Agent 系统配的工具越多,协调损耗越大,性能下降越严重。当工具超过 15 个时,多 Agent 相比单 Agent 会产生 ****2-6 倍****的效率惩罚。

这解释了为什么那些号称”注册 60+ 工具”的编排框架,实际效果往往令人失望——不是工具不好,是协调这些工具的成本把收益吃掉了。

2:能力饱和阈值 ≈ 45%

当单 Agent 在目标任务上的基线准确率超过约 45% 时,引入多 Agent 协作的边际收益趋近于零甚至为负。

45% 是一条分水岭。 2025 年主流大模型在代码生成、文本分析等常见任务上的基线能力早已远超这个阈值。这意味着,对你日常使用的大多数任务来说,加 Agent 不会让结果更好,只会让账单更贵。

3:错误放大率——独立并行 17.2 倍,中心化 4.4 倍

没有验证瓶颈的独立并行 Agent,不仅不能互相纠错,反而会把单个 Agent 的错误假设无限传播,错误率被放大 17.2 倍

即便引入一个”总管”做中心化编排(这已经是最常见的 multi-agent 架构了),错误放大也只能控制到 4.4 倍。

你以为多找几个人商量就能降低犯错率?在 AI Agent 的世界里恰恰相反——一个人犯的错,传给三个人,变成三种不同的错。

4:推理轮次公式 T = 2.72 × (n+0.5)^1.724

这是论文中我最喜欢的一个发现。Agent 之间的推理协调轮次随 Agent 数量超线性增长——指数是 1.724,远大于 1。

实际含义:

Agent 数量 相对协调成本
1 1x(基线)
2 ~3.3x
3 ~6.5x
4 ~10.6x
5 ~15.7x

从 1 到 3 个 Agent,协调成本已经翻了 6 倍多。从 3 到 5 个,再翻一倍。超过 3-4 个 Agent 就是成本爆炸的拐点。 这就是为什么我在实践中发现,大多数有效的 Agent 配置都不超过 3 个——不是因为设计不出更多角色,而是物理规律决定了你加不起。

5:消息密度饱和 ≈ 5 条/轮

Agent 之间每轮沟通超过约 5 条消息后,新增的信息就全是冗余,不产生任何有效信息增益。

说白了:AI Agent 之间的沟通效率有天花板。不是聊得越多越好,超过一定量就是在烧 token 说废话。这和你在微信群里 @ 了十个人讨论需求、最后发现不如直接找一个人说清楚,是完全一样的道理。

6:模型智力的收益是二次方增长

回归模型中,单 Agent 智力的二次项系数为 +0.087

含义:投资让一个模型变强的回报,是加速增长的。 与其把预算花在多搞几个 Agent 上,不如花在用更好的模型、写更好的 prompt、做更好的上下文管理上——边际回报更高。

三、不只是论文——工业界也在”回归极简”

上面介绍了学术观点,接下来谈谈工业界的实践,做出顶级 AI Agent 产品的两家公司,几乎在同一时期表达了高度一致的立场。

Cognition(Devin 团队):别搞 Multi-Agent

Devin 是目前公认最强的 AI 编程 Agent 之一。其 CPO Walden Yan 在 2025 年 6 月发了一篇博文,标题就是 《Don’t Build Multi-Agents》

核心观点只有两条:

  1. 必须共享完整上下文,而非压缩摘要。 你把一个任务拆给两个子 Agent,每个都只拿到一条指令而不是完整的推理过程,信息衰减不可避免——他们叫它”传声筒效应”。
  2. 每个动作都携带隐式决策,并行 Agent 的隐式决策必然冲突。 Agent A 选了 A 风格的 API 命名,Agent B 选了 B 风格的——两个人都”没错”,但合在一起就不能用。

Cognition 自己怎么做的?单线程线性 Agent + 上下文压缩模型。 超长任务不拆agent,拆上下文——专门训了一个小模型做历史记录压缩,保留关键决策,丢掉冗余细节。

还有一个关键细节:Claude Code 的subagent 只被允许做只读查询,从不被允许写代码。为什么?因为子 subagent 没有主 Agent 的完整上下文,让它做决策就是让一个只听了会议纪要的人去写代码。

Anthropic(Claude 团队):从简单开始,只在必要时加复杂度

Anthropic 官方指南《Building Effective Agents》的第一句话就是:

“最成功的实现是使用简单、可组合的模式,而非复杂框架。”

他们给出了一个渐进式复杂度阶梯——从增强型单 LLM 到 Prompt 链、路由、并行化、编排器 - 工人……一共 7 层。核心理念是:只在上一层不够用时,才爬下一层。

图片

更犀利的是他们对框架的态度:”框架创造了额外的抽象层,使调试更困难,并且诱使人在简单方案就够用时增加复杂度。”——建议开发者先直接调 API,别一上来就套框架。

这和我之前在拆解 Ruflo 时的结论完全吻合:一个仓库超 110 万行、每轮额外消耗 6000-9000 tokens 的编排层,对大多数中短任务来说,你还没开始干活,token 预算已经被系统本身吃了一大块。

四、那什么时候 Multi-Agent 真的有用?

说了这么多”不该用”,必须说清楚”什么时候该用”。DeepMind 的论文在这一点上最有价值——它没有简单站队,而是给出了分场景的定量结论

任务类型 Multi-Agent 的表现 结论
金融分析(高度可并行) 中心化 MAS +57% ~ +127.5% 有效,值得用
Web 浏览搜索(动态探索) 去中心化 MAS +9.2% 微弱正收益
规划类任务(强顺序依赖) 所有 MAS 架构 -39% ~ -70% 严重劣化,别碰
工具密集型任务(确定性执行) 收益可忽略不计 白花钱

看出规律了吗?Multi-Agent 的价值取决于任务是否”天然可并行”且”不需要全局一致的决策链”。

金融分析为什么有效?因为”分析美股”和”分析港股”之间几乎没有信息依赖,天然可以独立做。规划类任务为什么灾难?因为第三步依赖第二步的决策,第二步依赖第一步——你让三个人各想各的,拼出来的方案必然矛盾。

另外还有两篇论文提供了更锐利的视角:

《When Single-Agent with Skills Replace Multi-Agent Systems》 发现,对于串行通信特征的多 Agent 系统,可以直接”编译”为带技能库的单 Agent——减少 53.7% token 消耗、49.5% 延迟,准确率持平甚至更高。多 Agent 的能力并不是不能实现,只是不需要通过多个”人”来实现。

《Understanding Agent Scaling via Diversity》 发现,如果你非要用 Multi-Agent,2 个异构 Agent(不同模型/不同工具集)就能打 16 个同质化 Agent。堆人数没用,堆多样性才有用。

五、如何决策?

基于以上所有信源,我提炼了一个极简决策框架:

图片

六、说回体感——为什么极简才是正道

奥卡姆剃刀的精髓、决策树剪枝和 Dropout 的哲学含义:如无必要,勿增实体!

回到开头。我的体感是:只使用必要的。 不是因为懒,而是经历了一个完整的从入门到祛魅的周期。

装了一堆 SKILL、AGENT?好多只在 demo 里好看,日常任务里可能一周也用不到一次,还额外占 context。配了花式 Persona?模型 follow 你写的一长串”你是一个资深 XX 架构师”的概率越来越低,不如把同样的精力花在写清楚任务描述上。搞了多 Agent 编排?每轮 6000+ token 的固定开销,短任务根本回不了本。

现在发现,这不是个人偏好,这是物理规律

  • 协调成本超线性增长(指数 1.724)
  • 工具越多惩罚越大(系数 -0.330)
  • 模型够强就不需要帮手(45% 阈值)
  • 提升单模型的回报是加速的(二次方增长)

OK,结论很明显:

AI Agent 工程的核心竞争力不是架构拓扑,而是上下文工程(当然,现在更流行的说法是 Harness Engineering)——确保每一次模型调用都拥有做出正确决策所需的全部相关信息。

Cognition 的 CPO 把它定义为”Agent 工程师的第一职责”。Anthropic 通过工具设计和渐进式模式体现这一理念。DeepMind 的回归模型给出了量化证据。

模型本身的智力不是瓶颈。让模型在每次调用时”看到”足够完整、足够相关的上下文,才是瓶颈。 把精力花在这里,比折腾架构拓扑有效得多。

PS:这个结论只保鲜半年,半年后 AGI 初见端倪后就是另外一种情形了。