还剩 2 分钟
    跳到主要内容
    2026-02-01·2 分钟阅读

    从 2026 年开始

    涂津豪 著

    我在一月中旬做了一期播客,聊了聊我对 2026 年及以后 Agent 和 AI 发展的预判。这篇 blog 基本上是那期播客的文字版,涵盖了我当时讨论的内容,外加一些没来得及提到的补充。如果你已经听过,可以把这篇当作总结和延伸;没听过的话,推荐去听听看~

    这是我对未来几年的一次推演——主要围绕 Agent 展开。我对今年及以后会持续发生的事情做了一些推导,也对更远的未来做了一些前瞻。我知道之前做过好几次类似的预测了,但 AI 进化得实在太快,重新审视一下还是很有价值的。现在的局面跟哪怕一年前相比,都已经大不一样了。

    2026 年

    对于 2026 年,我觉得核心话题依然是 Agent,但它们会变得更加个性化,也会真正具备实用价值。

    主动式 Agent

    回顾整个发展历程:最初我们只有聊天机器人,仅用于对话。后来人们希望它们能获取外部数据,于是有了基础的工具调用——搜索网页、查实时数据。随着模型变强,它们能处理更多工具,变得更稳健。现在我们给了它们推理能力,于是就有了 Agent。

    期望值在不断升高。大家希望 Agent 能做更多个性化的事,更实用,更了解自己。但局限性也很明显:当前的 Agent 只能做人类明确要求的任务,缺乏自驱力。我们常说 Agent 会帮我们行动、省时间,但现实是——不管是文本的、GUI 的还是两者结合的——它们都很慢。你发一句"帮我买点菜",然后得等上好一会儿。这跟我们希望它把我们从繁琐日常中解救出来的初衷是背道而驰的。

    要改善这一点,Agent 必须真正具备独立执行任务的能力。换句话说,它们必须理解我们的使用习惯,并利用这种理解在后台默默完成任务,不需要等人类来发起和干预。它们要提前准备好我们想要的东西。这让我觉得它们更像是一种升级版的自动补全。唯一的区别在于任务的尺度。普通的自动补全,比如 Cursor 的 Tab 模式,处理的是跨文件的代码行;而 Agent,比如 Manus,处理的是整个任务。

    想做到这一点,它们需要学习你的使用模式。比如:Agent 知道你总是在周一早上让它总结邮件,以后就自动完成;或者它知道你的日用品快没了,直接帮你补货。

    但也要确保它不烦人——时机很重要。既不能太具侵入性,也不能藏得太深,否则就没用了。这意味着 UI 和 UX 需要变。不能再只靠输入框界面了。上周 Gmail 的 AI Inbox 就是个好例子:它没有从根本上改变你用 Gmail 的方式,但加入的 AI 功能确实提升了效率。AI 驱动的工具不一定需要一个显眼的输入框——它们应该跟任务本身的上下文绑定在一起。

    如果这方面发展得好,会极大提升人们用 Agent 的效率,人们也会更加信任它们。

    记忆

    第二个关键点是记忆。人们对模型的期望越来越高,模型需要更了解用户才能让人觉得真正有用。这跟主动式 Agent 直接相关。

    目前关于记忆有几种通用方案。从产品角度看,大致三类:

    1. 模型用工具把信息存入记忆空间(ChatGPT、Gemini、Claude、Kimi、Qwen 等)
    2. 模型用对话搜索工具从历史聊天中查找特定话题(Claude、ChatGPT)
    3. 系统每天总结用户交互,提取新信息存入详细的摘要记忆中(Claude)

    这些都做得不错,我在 Claude 等产品的记忆功能上看到了很有潜力的表现。但对于更广泛的通用 Agent 来说,可以也应该做得更好。记忆不仅仅是关于我们的基本信息,它还连接着我们生活中的各种偏好:购物风格、代码风格、旅行习惯,等等。这些都影响着 Agent 能否在你的预期范围内完成任务。但一遍又一遍地告诉它你的偏好真的很烦人。所以产品如何"形成"这些记忆也需要创新。

    我一直在想的一个思路:把你的 App 和网站先交给 Agent 去探索。让 Agent 自己去学你的偏好,总比让你描述出来要靠谱,而且你肯定不想重复自己。你让 Agent 登录这些服务,它去翻你之前的订单,学习并总结你的偏好——你买菜通常点什么?你总是选哪家航空公司?然后 Agent 把这些整理成专门的文档。每次它去特定的 App 或网站,相关指令自动加载,确保模型已经知道了它该知道的。这不需要什么特殊的模型能力——只需要产品或环境(Agent Harness)做优化,把模型已有的知识推得更远。

    这个方法同样适用于很多其他场景。而且不同于最近的 Skills 之类的功能,这不需要用户或模型额外关注。不会出现模型忽略特定偏好的情况,因为它们是默认加载的。

    以上都是产品层面的思考,但我们也可以从更底层的角度去想。有时候模型并没有意识到利用用户知识的重要性,就直接跳过了。(说明一下:以下想法可能是错的,因为目前还没有明确的实验证明它们有效。)

    1. 可以借助 SAEs(稀疏自编码器)。Anthropic 在一些研究中使用了这些技术。通常 SAEs 可以在模型生成特定 token 时找到被激活的特征点。如果能用它来检测模型"寻求外部知识"(包括用户记忆)的倾向,那么当这种倾向很高时,我们就可以在那个 token 之后自动注入相关知识。模型收到之后就能生成更有用的回答。
    2. 可以在 MoE 模型中用更少、更专一的专家。比如一个模型只有三四个专家,各管一摊:一个思考/推理,一个工具调用,一个生成回复。也许再加一个来协调每一步该用哪个专家。

    记忆这块在模型层面可能还有更多创新空间。

    不管走哪条路,围绕主动式 Agent 和记忆我们都会看到很多惊喜。现在的核心问题是模型如何真正提升生产力——我觉得在它们能够深刻影响整个社会之前,应该先对个体产生巨大且显著的影响。

    趋势

    另外,有一些趋势会在未来一两年内持续发展或开始转变。

    模型即产品

    第一个持续趋势是模型即产品。这个模式由来已久,我觉得它有两个略有不同的侧面:

    1. 模型拥有独特能力,可以直接成为新产品或功能(如 GPT-Image、Nano Banana、Sora 2、Genie 3 等)
    2. 模型足够强大,人们可以围绕它通过一些特殊的工程搭建通用产品(如基于 Claude-3.7 Sonnet 的早期 Manus、Claude Code 等)

    其中,我觉得上周向公众发布的 Genie 3(Google 最新的世界模型)潜力巨大。你可以创造世界,控制你在里面"走动"的方式——整个过程都可定制。这比 Sora 之类的视频模型有意思多了。而且由于它能生成互动的世界,它(或其后续版本)有望成为首批可靠的生成式游戏引擎。我以前玩游戏不多,但如果能有基于稳健世界模型的靠谱产品,我可能真会开始玩——自己创造体验听起来真的很有趣 lol。我在 X 上看到的一些例子:

    媒体库1 / 3
    0:00 / 0:00

    from https://x.com/i/status/2016979481832067264

    0:00 / 0:00

    from https://x.com/i/status/2017041490279575844

    0:00 / 0:00

    from https://x.com/i/status/2016992620862476478

    ← 左右滑动 →

    Agent 的能力

    第二个趋势是 Agent 的能力。模型会越来越稳健,这是确定的方向。它们会处理更多长尾任务,搞定更复杂的事情。它们不仅能加速软件工程工作,还能加速 AI 研究本身,甚至自动化其中的一部分。我们已经在科研和其他领域看到了巨大的潜力。也有 benchmark 在追踪这些进展,比如 METR Time HorizonVendingBench 等等。

    媒体库1 / 2

    METR Time Horizon v1.1

    VendingBench-2 Scores (featuring Gemini-3 Pro, Claude Opus 4.5, and GPT-5.2)

    ← 左右滑动 →

    曲线在上扬,而且会继续稳步上升。

    模型对齐

    第三点,也是最重要的之一,是模型对齐。随着模型越来越强、被部署到越来越多的生产环境中,恶意使用的后果将变得灾难性。如果一个模型能帮科学家造核聚变反应堆,那它也能帮坏人造核武器;如果一个模型能帮公司开发药物,那它也能造生化武器——知识本来就是相通的。我之前写过关于这方面的思考,相关研究也很多,但我觉得一个很有前景的方向是新的 Claude ConstitutionOpenAI 的 Model Spec 类似,但更偏规则导向:你应该做什么、不应该做什么。而 Constitution 更像是教模型如何做一个好人、做好事——不像规则,更像父母教孩子(我记得 Dario 把它形容为"一封来自已故父母的、密封至成年的信")。我觉得这是一个很有希望的方向,预计会有更多公司探索类似的路径。

    人机交互

    最后是人机交互方式的变化。目前我们通过 App、API、网站跟 AI 交互——全都局限在手机和电脑上。我觉得一个很好的新入口是 AI 眼镜,因为它们能看到你看到的、听到你听到的。而且它们可以有自己的生态位——不需要取代手机或其他任何东西。它们能带来一些新的东西:一种跟 AI 交互和共处的不同方式。不像 Humane AI Pin 或 Rabbit r1 那样试图取代手机然后失败了。

    AI 眼镜几乎能感知我们能感知的一切,所以它们是前面提到的主动式 Agent 的绝佳搭档。它们可以根据你的现实环境推荐事物或帮你完成任务。更好的记忆系统在这里也变得至关重要。

    已经有一些产品了。比如 Pickle 1 看起来还挺有希望的——我已经预订了,等着看效果。Google 似乎也在做相关的事情,Demis 在 2026 年达沃斯论坛上有提到过。不过这些都还处于早期。

    眼镜的事暂时可以先放一放,更多是硬件、软件和生态系统追赶的问题。

    未来

    关于未来我之前写过很多次了,但 AI 发展太快,情况跟一年前已经大不相同。所以我觉得还是值得分享一下我对更长远未来的看法——最近看了一些文章和采访、做了自己的思考之后,我有了一些新想法。

    先提一下 Dario 的新文章《技术的青春期》。这是一篇很严肃的文章,勾勒了我们面临的风险以及可能的应对之道。我很尊重他处理这些问题的方式——审慎、具体,而不是做一个末日论者。如果你还没读过,推荐读一读。我在这里写的更多是个人视角,来自一个将亲历这场变革的人。再次强调,这些都是我个人的想法,可能并不正确。

    我想看到的

    彼岸的世界:一个生存焦虑不再是人类生活默认模式的世界。医学、气候和长寿方面的科学进步比以往快得多。人们可以去追求对自己真正重要的事情,而不只是为了赚钱。

    Dario 把这叫做「充满爱与恩典的机器」。我觉得他对可能性的判断是对的。真正的问题是,我们能否在不让一切崩塌的情况下度过中间那段路。

    我无数次想象过这个美好的未来。机器人负责体力劳动。AI(这里指常规模型、机器人和其他形式)自动化几乎所有事情,它们超高的生产力带来了富足;富足让物质匮乏变得不再那么重要。人们从"谋生"的持续压力中解放出来,能够真正地去生活。这听起来像乌托邦,但我不觉得不可能——只是很难到达,需要付出巨大的努力。

    一些艰难的问题

    如果 AI 创造的价值比你多,你的目标是什么?

    这很快就会成为许多人的切身体验。正如我所说,模型在各方面的能力越来越强,公司会逐渐部署和使用它们来干活,他们会算这笔账:AI 更快、更便宜、更好。理性的选择就是裁人。很多人会被裁掉、丢掉工作。如果这大规模发生,"AI 造福人类"的叙事就会崩塌——因为我们想要的是让每一个人都受益,而不只是一小部分人。如果某个东西让你在经济上变得无关紧要,又没给你任何回报,你不可能从中受益。这反而是在伤害。

    我觉得要避免这种局面,公司和社会需要达成某种共识:即使 AI 创造了更多价值,在可预见的未来我们仍然应该保护人类。一家公司在获取了运营所需的价值后,应该把价值回馈给被取代的工人。这更像是一种社会契约。价值总是有来源的。

    我知道这执行起来非常难,几乎不可能。没有执行机制、没有明确政策,竞争压力也会阻碍。但这正是这段旅程之所以艰难的原因。技术的到来比我们的社会系统适应得更快——这就是为什么我在之前的博文中说过,应该是我们去适应这些先进系统的发展。我们几乎从未经历过两者并行的局面,而现有的框架也不是为此建立的。

    没有工作的意义

    即使我们解决了物质层面的问题,即使被取代的工人最终获得了收入,还有一个关于意义的问题。人们不只是想要东西,他们想要被重视、被需要。工作曾经提供了这些,即使工作本身很无聊。

    我想过很多这个问题,外面也有很多讨论。在一个 AI 处理了大多数认知任务的世界里,我们需要新的结构来承载目标。创造性工作、社区、探索、照护——这些对我们有意义的事情,即使它们不能最大化 GDP。但这不会自动发生,我们必须有意识地去构建。

    也许这听起来很抽象,但其实很具体。如果你不需要工作,你会做什么?不是度假模式下的"你会做什么",而是说——长期来看,什么能给你的生活带来结构和意义?对我来说,大概是探索未知,体验不同的地方,也许创造一些东西。但很多人甚至没有机会思考这个问题,因为生存才是第一位的。

    转型会迫使我们回答这个问题。我觉得每个人的答案都会不同,而这恰恰就是关键所在——拥有弄清楚什么对你重要的自由,而不是被经济压力所支配。

    转型本身

    很明显,这场转型不会风平浪静。我之前说过,数以百万计的人将失去工作,社会可能会在某些部分崩溃。历史告诉我们,工业革命在好转之前造成了巨大的苦难。这次可能类似,但更快更广。

    问题是我们能否让转型尽可能地人道。不是"为了进步可以接受的牺牲"——这种框架历史上被用来为很多伤害辩护。而应该是:我们承认这会很难,并试着在这个过程中互相照顾。

    为什么我依然乐观

    我知道风险巨大。末日论的声音很多,我也理解他们的出发点——强大 AI 落入坏人手中、价值观未对齐、社会崩溃,等等。

    但有很多研究者在做 alignment 和可解释性的工作。一些公司(比如 Anthropic 和 DeepMind)在认真对待安全和相关问题。新的 Claude Constitution 试图教模型做一个好人,而不只是遵守规则。人们在进行这些对话,而不是假装问题不存在。这很重要。

    我一直在想怎么同时拥抱这两种东西——充满希望的愿景,以及知道到达那里的路途将会崎岖。

    说实话,归根到底就是一件简单的事:我相信我们的世界可以变得更好,我想看到那一天的发生。也许还能为此出一份力。这就是我坚持的信念。

    未来的岁月会很艰难,也许需要几十年。但我总是回到这个问题:那又怎样?为什么要害怕?


    还有很多可以写的,但我觉得现在够了,剩下的留到以后的文章里吧。

    无论如何,希望世界在 2026 年以及更远的未来变得越来越好。