Multi-Agent vs Single-Agent

一、最新研究进展

Google DeepMind 联合 MIT，做了一件业界期待已久的事：用 180 组控制实验，定量回答”多 Agent 到底比单 Agent 强多少”。

论文叫《Towards a Science of Scaling Agent Systems》（arXiv: 2512.08296），跨 3 个模型家族（OpenAI、Google、Anthropic）、5 种架构、4 个基准任务。不是理论推导，不是案例论证，这是真金白银烧 token 跑出来的实验数据。

结论一句话：

“More Agents Is NOT All You Need.”

更多的 Agent 不等于更好的结果。在大多数场景下，多 Agent 系统的表现不仅没有显著优于单 Agent，反而因为协调开销而更差。

二、论文里的六个关键数字

这篇论文最大的价值不是观点，是数据。以下是六个关键定量发现，每一个都直接对应我们日常使用中的某种”体感”：

1：工具协调惩罚系数 = -0.330

在论文的 20 参数回归模型中，工具 - 协调交互项是最大的负因子。

翻译成人话：你给多 Agent 系统配的工具越多，协调损耗越大，性能下降越严重。当工具超过 15 个时，多 Agent 相比单 Agent 会产生 ****2-6 倍****的效率惩罚。

这解释了为什么那些号称”注册 60+ 工具”的编排框架，实际效果往往令人失望——不是工具不好，是协调这些工具的成本把收益吃掉了。

2：能力饱和阈值 ≈ 45%

当单 Agent 在目标任务上的基线准确率超过约 45% 时，引入多 Agent 协作的边际收益趋近于零甚至为负。

45% 是一条分水岭。 2025 年主流大模型在代码生成、文本分析等常见任务上的基线能力早已远超这个阈值。这意味着，对你日常使用的大多数任务来说，加 Agent 不会让结果更好，只会让账单更贵。

3：错误放大率——独立并行 17.2 倍，中心化 4.4 倍

没有验证瓶颈的独立并行 Agent，不仅不能互相纠错，反而会把单个 Agent 的错误假设无限传播，错误率被放大 17.2 倍。

即便引入一个”总管”做中心化编排（这已经是最常见的 multi-agent 架构了），错误放大也只能控制到 4.4 倍。

你以为多找几个人商量就能降低犯错率？在 AI Agent 的世界里恰恰相反——一个人犯的错，传给三个人，变成三种不同的错。

4：推理轮次公式 T = 2.72 × (n+0.5)^1.724

这是论文中我最喜欢的一个发现。Agent 之间的推理协调轮次随 Agent 数量超线性增长——指数是 1.724，远大于 1。

实际含义：

Agent 数量	相对协调成本
1	1x（基线）
2	~3.3x
3	~6.5x
4	~10.6x
5	~15.7x

从 1 到 3 个 Agent，协调成本已经翻了 6 倍多。从 3 到 5 个，再翻一倍。超过 3-4 个 Agent 就是成本爆炸的拐点。 这就是为什么我在实践中发现，大多数有效的 Agent 配置都不超过 3 个——不是因为设计不出更多角色，而是物理规律决定了你加不起。

5：消息密度饱和 ≈ 5 条/轮

Agent 之间每轮沟通超过约 5 条消息后，新增的信息就全是冗余，不产生任何有效信息增益。

说白了：AI Agent 之间的沟通效率有天花板。不是聊得越多越好，超过一定量就是在烧 token 说废话。这和你在微信群里 @ 了十个人讨论需求、最后发现不如直接找一个人说清楚，是完全一样的道理。

6：模型智力的收益是二次方增长

回归模型中，单 Agent 智力的二次项系数为 +0.087。

含义：投资让一个模型变强的回报，是加速增长的。 与其把预算花在多搞几个 Agent 上，不如花在用更好的模型、写更好的 prompt、做更好的上下文管理上——边际回报更高。

三、不只是论文——工业界也在”回归极简”

上面介绍了学术观点，接下来谈谈工业界的实践，做出顶级 AI Agent 产品的两家公司，几乎在同一时期表达了高度一致的立场。

Cognition（Devin 团队）：别搞 Multi-Agent

Devin 是目前公认最强的 AI 编程 Agent 之一。其 CPO Walden Yan 在 2025 年 6 月发了一篇博文，标题就是 《Don’t Build Multi-Agents》。

核心观点只有两条：

必须共享完整上下文，而非压缩摘要。 你把一个任务拆给两个子 Agent，每个都只拿到一条指令而不是完整的推理过程，信息衰减不可避免——他们叫它”传声筒效应”。
每个动作都携带隐式决策，并行 Agent 的隐式决策必然冲突。 Agent A 选了 A 风格的 API 命名，Agent B 选了 B 风格的——两个人都”没错”，但合在一起就不能用。

Cognition 自己怎么做的？单线程线性 Agent + 上下文压缩模型。 超长任务不拆agent，拆上下文——专门训了一个小模型做历史记录压缩，保留关键决策，丢掉冗余细节。

还有一个关键细节：Claude Code 的subagent 只被允许做只读查询，从不被允许写代码。为什么？因为子 subagent 没有主 Agent 的完整上下文，让它做决策就是让一个只听了会议纪要的人去写代码。

Anthropic（Claude 团队）：从简单开始，只在必要时加复杂度

Anthropic 官方指南《Building Effective Agents》的第一句话就是：

“最成功的实现是使用简单、可组合的模式，而非复杂框架。”

他们给出了一个渐进式复杂度阶梯——从增强型单 LLM 到 Prompt 链、路由、并行化、编排器 - 工人……一共 7 层。核心理念是：只在上一层不够用时，才爬下一层。

更犀利的是他们对框架的态度：”框架创造了额外的抽象层，使调试更困难，并且诱使人在简单方案就够用时增加复杂度。”——建议开发者先直接调 API，别一上来就套框架。

这和我之前在拆解 Ruflo 时的结论完全吻合：一个仓库超 110 万行、每轮额外消耗 6000-9000 tokens 的编排层，对大多数中短任务来说，你还没开始干活，token 预算已经被系统本身吃了一大块。

四、那什么时候 Multi-Agent 真的有用？

说了这么多”不该用”，必须说清楚”什么时候该用”。DeepMind 的论文在这一点上最有价值——它没有简单站队，而是给出了分场景的定量结论：

任务类型	Multi-Agent 的表现	结论
金融分析（高度可并行）	中心化 MAS +57% ~ +127.5%	有效，值得用
Web 浏览搜索（动态探索）	去中心化 MAS +9.2%	微弱正收益
规划类任务（强顺序依赖）	所有 MAS 架构 -39% ~ -70%	严重劣化，别碰
工具密集型任务（确定性执行）	收益可忽略不计	白花钱

看出规律了吗？Multi-Agent 的价值取决于任务是否”天然可并行”且”不需要全局一致的决策链”。

金融分析为什么有效？因为”分析美股”和”分析港股”之间几乎没有信息依赖，天然可以独立做。规划类任务为什么灾难？因为第三步依赖第二步的决策，第二步依赖第一步——你让三个人各想各的，拼出来的方案必然矛盾。

另外还有两篇论文提供了更锐利的视角：

《When Single-Agent with Skills Replace Multi-Agent Systems》 发现，对于串行通信特征的多 Agent 系统，可以直接”编译”为带技能库的单 Agent——减少 53.7% token 消耗、49.5% 延迟，准确率持平甚至更高。多 Agent 的能力并不是不能实现，只是不需要通过多个”人”来实现。

《Understanding Agent Scaling via Diversity》 发现，如果你非要用 Multi-Agent，2 个异构 Agent（不同模型/不同工具集）就能打 16 个同质化 Agent。堆人数没用，堆多样性才有用。

五、如何决策？

基于以上所有信源，我提炼了一个极简决策框架：

六、说回体感——为什么极简才是正道

奥卡姆剃刀的精髓、决策树剪枝和 Dropout 的哲学含义：如无必要，勿增实体！

回到开头。我的体感是：只使用必要的。 不是因为懒，而是经历了一个完整的从入门到祛魅的周期。

装了一堆 SKILL、AGENT？好多只在 demo 里好看，日常任务里可能一周也用不到一次，还额外占 context。配了花式 Persona？模型 follow 你写的一长串”你是一个资深 XX 架构师”的概率越来越低，不如把同样的精力花在写清楚任务描述上。搞了多 Agent 编排？每轮 6000+ token 的固定开销，短任务根本回不了本。

现在发现，这不是个人偏好，这是物理规律：

协调成本超线性增长（指数 1.724）
工具越多惩罚越大（系数 -0.330）
模型够强就不需要帮手（45% 阈值）
提升单模型的回报是加速的（二次方增长）

OK，结论很明显：

AI Agent 工程的核心竞争力不是架构拓扑，而是上下文工程（当然，现在更流行的说法是 Harness Engineering）——确保每一次模型调用都拥有做出正确决策所需的全部相关信息。

Cognition 的 CPO 把它定义为”Agent 工程师的第一职责”。Anthropic 通过工具设计和渐进式模式体现这一理念。DeepMind 的回归模型给出了量化证据。

模型本身的智力不是瓶颈。让模型在每次调用时”看到”足够完整、足够相关的上下文，才是瓶颈。 把精力花在这里，比折腾架构拓扑有效得多。

PS：这个结论只保鲜半年，半年后 AGI 初见端倪后就是另外一种情形了。