我对 Agent 和模型自主行为的一些思考

这绝对是近期最热的话题之一了 lol。不过我个人觉得，除了 Agent 本身，模型的自主行为同样很有意思——两者都跟基座模型的能力上限以及模型可能带来的风险紧密相关。

Agent

最近几个月冒出了一大堆号称自己有 Agentic 能力的产品。说实话，虽然其中有些确实挺酷，但大部分不过是在蹭热度，并没有给用户带来什么真正的价值。

简单介绍一下：Agent 是一种基于 LLM 的系统，能代替人类行动并与真实世界交互。它往往需要执行一长串动作来完成复杂任务——比如规划旅行、给孩子挑学校，甚至造一栋房子。这就意味着基座模型的出错率必须极低，因为哪怕一个失误都可能酿成大祸。然而目前的模型离这个标准还差得远——那些看起来很强的产品，实际用起来经常半道翻车。在我们能真正称一个系统为 Agent 之前，模型在长序列动作和推理方面还需要继续提升。

真要动手造 Agent，技术上的坎儿还有一堆。比如怎么让它在长时间运行中持续追踪自己的状态？面对现实世界的混乱和不确定性怎么应对？还有那一整套跟各种 API 和外部系统对接的难题。这绝不是把模型做大就能解决的。

另一个让我一直在想的事是伦理层面。如果 AI Agent 在替我们做事，出了问题谁来担责？我们怎么确保自己能理解 AI 为什么做出某个决定？不能让一个黑箱替我们拍重大决策。而且 AI 会放大人类偏见，这个我们已经见识过了——在 Agent 的场景下如果不加注意，可能会造成很严重的后果。

我觉得如果不先把这些问题解决，或者至少搞清楚，就没法做出一个真正靠谱的、能上线的 Agent。

模型的自主行为

虽然这个话题对大多数人来说没那么"看得见摸得着"，但我觉得反而更值得聊。

首先得明确一件事：LLM 或 Agent 的自主行为是危险的。因为它本质上意味着模型在做我们没预料到的事。它可能在过程中悄悄埋下隐患，也可能对现实世界造成巨大伤害。

举个例子：假设未来再来一次全球性的大规模系统故障，比上次 CrowdStrike 事件还严重。我们派一个强大的 Agent 去找 bug、修问题，给它 3 个小时。做完之后它跟你说"搞定了，一切正常！"——但你根本不知道它到底干了什么。也许它写了一个新脚本，而那个脚本可能会引发下一次故障。这一切你完全不知情——这就是危险所在。

想要控制这种自主行为，事情只会更棘手。我们需要严肃的安全措施和管控机制。也许是某种 AI 监督系统，也许是对 AI 未经人类批准不能做什么设一条硬线。但这样做又可能牺牲效率——确实是个两难。

监管方面也一样。目前关于 AI 的法规还很模糊，但随着系统变强、应用变广，这肯定会改变。也许以后会出现某种 AI 许可制度或强制安全测试，怎么发展还挺值得关注的。

所以很明显：想造一个好用又可靠的 Agent，光堆参数不够。还得确保模型不会干出格的事。这就要求我们搞懂模型的深层机制——而这正是一些实验室在做的可解释性研究的意义所在。

在这个意义上，至少短期内，我觉得我们会看到更多人机协作的探索，而不是完全自主的 Agent。在保留人类决策参与的同时发挥 AI 的优势，是一条更现实的路。至于长远？没人知道。取决于我们如何把控这些技术的开发和部署，未来可能走向截然不同的方向。

顺便推荐关注一个叫 METR 的机构，他们在模型威胁评估方面做得很好，发布了一套针对模型自主行为的评估框架，值得一看。

说到底，让 AI Agent 替我们搞定复杂任务这个想法很诱人，但我们距离真正能放心依赖它们还有很长的路。做好这件事需要大量审慎的思考和持续的努力。