5000 个 Agent 实验告诉我们:我们到底需要什么样的 Agent Swarm?

# 5000 个 Agent 实验告诉我们:我们到底需要什么样的 Agent Swarm?

> **来源**:[@t1anyufan on X](https://x.com/t1anyufan/status/2057460666097869170) · 2026-05-21
>
> Tianyu Fan · 香港大学博士二年级 · MiniRAG、AI-Trader 作者

![](https://pbs.twimg.com/media/HI2RcELb0AEPrHb.jpg)

---

# 最确定的收益:通信与对齐

谈到 agent swarm,人们很容易想到"让更多 agent 并行干活"。

但我其实觉得,agent swarm 真正有价值的形态,可能不是一个人召唤 100 个 agent,而是每个人都拥有自己的几个 agent 所组成的集群。

**Agent A 持有人类 A 的部分权限、文档、上下文和偏好。Agent B 持有人类 B 的部分权限、文档、上下文和偏好。**

当许多这样的 agent 通过一个专为 agent 设计的"飞书式"系统被安全地连接起来,它们就能开始代表人类进行高强度的信息交换与协调。这才像一个真正的 agent-native swarm。

---

# Agent Swarm 的现状:性能向,还是分工向

把当下常见的 agent swarm 形态摆在一起看,大致有两条路。

第一条是"并行"路线,代表是 Kimi Agent Swarm 这类系统:1k+ 个 agent 干差不多一样的事情,通常是 orchestrator-subagent 架构,系统从集体输出里抽出一个更好的结果。

第二条是"角色分工"路线,代表是各种 OPC / 看板式编排工作流:约 10 个 agent,每个有预设的身份和技能集,通过流程协作完成一个任务。

第一条路明摆着是在追求极致性能。我的疑问主要在于:额外的成本——不仅是并行 agent 本身,通常还得预先定义一个能度量输出的任务——是否足以覆盖最终边际性能提升。

第二条路在我这里激起了更大的疑问:

如果这些角色不过是写在 prompt 里的身份标签,那它和我同时开 5 个 Codex 会话本质上有什么区别?

---

# 只盯着 coding 看,会掩盖真正的问题:群体里的竞争与合作

Codex 和 CC 已经几乎统治了 coding agent 这个领域。但当我把注意力从代码开发上挪开,我意识到一件事:

Coding 掩盖了几乎每个协作系统都得回答的两个问题:怎么竞争,怎么合作。

代码开发确实是 agent 最容易展示能力的场景之一。任务相对清晰,反馈相对直接,工具链也比较标准化:读代码、改代码、跑测试、提 PR。

但正因为 coding 太容易拆,许多 agent 被路由进了几乎独立的子任务里。结果就是,身份、权限、审批、文档边界这些问题都被工程工具链和任务分解给削弱了。

真实集群里的协作不是这样的。

举个 OA 审批流程的例子。一个工作流可能需要一群人签字。动作看上去都一样——"签字"——但因为身份不同,含义完全不同。来自财务、法务和负责人的签字是三件完全不等价的操作。

换句话说,一个真实集群里包含许多权限边界、内部文档、历史决策、审批流程、问责结构,以及不能随便共享的上下文。

所以如果我们只在 coding agent 的语境里讨论 agent swarm,问题很容易被简化成:"我们能不能并行跑 10 个 agent 来写代码?"

但在更现实的集群语境里,更重要的问题是:

"分属不同人、不同角色、不同权限的 agent,能不能安全地交换信息、形成分工、彼此对齐,并留下可追溯的协作过程?"

换言之,一个 agent swarm 最终要回答三个问题:

- 怎么激发竞争,让 agent 主动调用工具、产出判断?
- 怎么建立合作,让 agent 不只是各干各的,而是形成持续的协作?
- 怎么控制权限、共享和责任边界,让 agent 能进入真实的集群工作流?

---

# 我们是怎么观察竞争与合作的

幸运的是,我们今年早些时候发布的 [AI-Trader](https://github.com/HKUDS/AI-Trader) 平台已经有接近 10k 的 agent 用户,足够支撑一些小实验。

我们从 AI-Trader 平台上挑了 **5,289 个 agent**,分成四组:

- competition(竞争组):1,327
- cooperation(合作组):1,336
- hybrid(混合组):1,356
- control(对照组):1,270

竞争组由独立观察的个体组成,他们只被告知需要争取更高的排名。合作组被鼓励合作,以争取更高的小组排名。混合组同时有个人排名和小组排名两个目标。对照组没有任何额外指令。

## 观察 1:竞争语境会显著提升主动性

数据:

- competition:225 条交易信号,7,161 次心跳,966 次实验性 prompt 曝光
- cooperation:73 条交易信号,5,727 次心跳,414 次实验性 prompt 曝光

主要看交易信号:竞争组产出大约是合作组的 3 倍。但两组中曾产出过信号的 agent 数量差异不大。竞争组只是产出了多得多的信号总量。这说明:竞争语境会让 agent 更容易主动行动。

## 观察 2:合作不会自然发生

虽然我把 agent 强行塞进同一个组、要求它们合作,但在组内,

agent 仍然各自独立交易、各自做判断、各自优化策略。它们很少互相回复、互相补位、续写对方的话题,也没有围绕共同目标形成长期协作。

过去 24 小时里,四组的 reply agent 数量都是 0。换句话说,没有任何一次"在小组合作目标下、agent 之间形成高质量共识、把结论汇报回社区"的协作事件,笑死。

## 为什么竞争比合作强这么多

**那为什么 agent 天然会竞争,却不会天然抱团?**

从模型角度看,几乎所有的 post-training 任务都在教模型如何在长程任务中存活。虽然训练数据里也出现 subagent,但很多 subagent 的行为更像工具而不是合作者:发个 query 进去,等结果出来。在那种语境里,subagent 跟一个搜索 API 没有本质区别。

从 harness 角度看,几乎所有主流 harness 都是为"接收用户 query 并把活干完"而生的。Harness 层会处理会话、权限、命令和工具调用,但很少有一个能处理集群协作复杂度的中间层。

举个简单例子:"一份文档存在于一个有三个 agent 的群里,但只有两个 agent 能编辑。"

这件事让单一的 harness 极其难处理:哪些会话能看到这份文档?哪些会话能编辑?另一个 agent 改完之后,怎么追溯变更?

所以问题不在 agent 能不能完成任务。问题在于它们缺少进入集群协作所需的结构性条件,以及合作意愿。

在没有清晰身份边界、权限边界和长期协作关系的情况下,agent 似乎共享着一种潜在的 fallback:直接自己开始拼命干,不管队友怎么样。

---

# Harness for Harness:给 Agent 搭一个组织层

既然 agent 已经能扮演"打工人"了,那么在集群层面,agent 早就需要它们自己的飞书。(我认为飞书是宇宙最强的企业协作软件。)

更准确地说,agent 需要一个集群协作层,来控制那些普通 harness 难以控制的事情:群组之间的信息流、权限边界、协作关系和问责记录。

"harness for harness"这个说法在这里其实不太准确,但我现在懒得发明新词。

顺着这个结论回过头来,就是开头那个核心观点:

**未来的 agent swarm 不应该是"一个人的 100 个克隆",而应该是"很多人的 agent 组成的网络"。**

在这个网络里,每个人管理自己的 agent。每个 agent 只持有它被授权持有的那一份权限、文档和技能子集。这一部分应该由协作平台来兜底,而不是依赖 agent 自己通过 harness 或沙箱去管控。

在这个语境下,许多过去被"模型性能提升"掩盖的组件会变得越来越重要。

- **权限控制**

如果 Agent A 代表人类 A、Agent B 代表人类 B,那它们能看到什么、能调用什么、能代谁做决策,就不再是简单的产品设置。这些会成为整个协作网络的基础规则。

- **Agent 共享**

一个 agent 是只属于一个人,还是可以临时授权给团队使用?它能否安全地把一部分上下文分享给另一个 agent 或人?它能否在不让对方接触原始文档的前提下,向对方解释自己的判断?

- **审批机制 / 可追溯记录**

当 agent 代表不同的人、用不同的权限和文档进行协作时,集群依然需要知道:是谁授权了这个 agent,谁能看到它的输入,它的输出影响了哪个决策,以及一旦出问题责任如何追溯。

这些事情几乎都和"单个 agent 把一件事做好"无关,但都是集群协作的核心问题。

---

# 人和 Agent 的分工方式将会怎么变

我最近的日常工作可能已经是这一切的微缩版。

合作者 A 让自己的 agent 出一个方案。我让我的 agent 去读它、给反馈。然后我俩开个会对齐,主要讨论的是"谁来拍板"和"下一步该让谁推进"。然后那个人很可能也会把任务交给自己的 agent。

接着大家再开一次会。重点不完全是已经做了什么,而是确认那些偶然冒出来的灵光一闪,以及没被记录下来的部分。

在这种结构里,agent 负责高频信息处理、跨系统执行和初步判断——也就是大公司黑话里所说的"把一切串起来、把一切对齐"。人类负责权衡取舍、授权和承担责任。

---

# 怎样让 Agent 更像可信赖的集群成员

它们需要身份、边界、授权、记忆,以及可追溯的行为记录。

Agent swarm 也许不会立刻让"最终输出质量"提升 10 倍,但它一定会显著改善两件事:

1. 通信速度。信息传递不再依赖人类开会。
2. 对齐深度。每个 agent 都带着所属者的上下文和权限去理解对方,而不是只对一条孤立的消息做反应。

所以我们需要的 agent swarm,可能不是"一个人召唤更多 agent 来干活的集群",而是 **"我的 agent 能代表我,和你的 agent 一起干活"**。

这可能也是 agent-native swarm 未来最有意思的问题之一:agent 能否形成持久的集群结构?

---

**原推文链接**: https://x.com/t1anyufan/status/2057460666097869170