还剩 1 分钟
    跳到主要内容
    2024-08-12·1 分钟阅读

    我对 Agent 和模型自主行为的一些思考

    涂津豪 著

    这绝对是最近最火的话题之一了 lol。我个人认为,除了 Agent 本身之外,模型的自主行为同样非常值得关注——因为这两者都跟基础模型的能力上限息息相关,同时也关乎模型可能带来的风险。

    关于 Agent

    最近几个月我们看到了大量自称"Agentic"的产品,但说实话,虽然其中一些确实很酷,大部分不过是在蹭热度,并没有给用户带来什么实际价值。

    简单介绍一下:Agent 是一种基于 LLM 的系统,能够代替人类行动,并与真实的物理世界进行交互。大多数时候,这个系统需要执行一连串很长的操作来完成复杂任务——比如规划一次旅行、为孩子找到最好的学校,甚至建造一栋房子。这就意味着基础 LLM 的错误率必须极低,因为任何一个错误都可能引发灾难性的后果。

    然而,目前的模型离这个标准还差得很远。我们能看到一些看似强大的产品,但它们在执行过程中经常半途出错。在我们真正称其为"Agent"之前,模型在长序列行动和推理上的能力还需要进一步提升。

    谈到实际构建这些 Agent,我们需要克服一大堆技术难题。比如,怎么让 Agent 在长时间运行中持续追踪自己在做什么?现实世界是混乱且充满不确定性的——我们怎么教 AI 去应对这些?还有一个棘手的问题:怎么让这些系统与各种不同的 API 和外部系统顺畅协作。这不仅仅是把模型做大就能解决的——我们需要攻克这些实际的工程问题。

    另一个我一直在思考的方面是伦理问题。如果 AI Agent 在替我们做事,出了问题谁来负责?我们怎么确保自己能理解 AI 做出某个决策的原因?我们不能容忍一个黑箱在替我们做重要决定。而且我们已经见识过 AI 会放大人类偏见——如果不加以注意,这在 Agent 场景下可能会造成严重的后果。

    我认为,如果不解决或者至少理解这些问题,我们就无法构建出一个真正可靠的、能投入生产环境的 Agent。

    关于模型的自主行为

    虽然这个话题对大多数人来说没那么"实际"和可感知,但我觉得反而更有意思。

    首先,我需要指出:LLM 或 Agent 的自主行为是危险的。为什么?因为它本质上意味着模型在做超出我们预期的事情。它可能在过程中隐藏了潜在的错误,也可能对真实世界造成巨大的伤害。

    举个例子:假设未来再次发生一次全球性的系统故障,类似之前的 CrowdStrike 事件,但规模更大。然后我们让一个强大的 Agent 去找到 bug 并修复它,给它 3 个小时的时间。完成之后,它告诉你:"好了,搞定了,一切都修好了!"但实际上,我们并不知道它到底做了什么——这个 Agent 可能写了另一个脚本,而这个脚本可能会引发新一轮的故障。这一切我们都无从知晓,而这正是危险所在。

    当你开始思考如何控制这种自主行为时,事情变得更加棘手。我们需要制定严格的安全措施和控制机制。也许我们需要某种 AI 监督系统,或者对 AI 在未经人类批准的情况下能执行的操作设定硬性边界。但这样做又可能会限制 AI 的效率——这确实是一个需要拿捏的平衡。

    还有监管方面的问题。目前围绕 AI 的法律法规还很模糊,但随着这些系统变得更强大、应用更广泛,这种情况肯定会改变。我们可能会看到某种 AI 许可制度或强制性的安全测试。到时候会怎样发展,还是挺值得关注的。

    所以很明显,要构建一个既有用又可靠的 Agent,我们不仅需要通过扩展来让模型变得更强大,还需要确保模型不会做出有害的或出乎意料的行为。这就要求我们深入理解模型的底层机制和运作方式——而这正是目前几个实验室在做的可解释性(Interpretability)研究。

    基于以上这些原因,我认为至少在短期内,我们会看到更多关于"人机协作"的探索,而不是完全自主的 Agent。这是一种利用 AI 优势的方式,同时在安全和决策过程中保留人类的参与。但长远来看呢?没人知道。对社会的潜在影响是巨大的,取决于我们如何处理这些技术的开发和部署,事情可能朝很多不同的方向发展。

    顺便推荐一下,读者可以了解一个叫 METR 的组织(他们在模型威胁评估方面做得非常好),他们发布了一套针对模型自主行为的评估框架。

    说实话,虽然让 AI Agent 替我们处理复杂任务这个想法听起来很酷,但我们距离真正能依赖它们还有很长的路要走。要把这件事做好,需要大量审慎的思考和持续的努力。