---
title: "从 2026 年开始"
date: "2026-02-01"
author: "涂津豪"
site: "涂津豪的空间"
url: "https://www.tujinhao.com/blog/2026-and-beyond"
language: "zh"
---

# 从 2026 年开始

我在一月中旬做了一期播客，聊了聊我对 2026 年及以后 Agent 和 AI 发展的预判。这篇 blog 基本上是那期播客的文字版，涵盖了我当时讨论的内容，外加一些没来得及提到的补充。如果你已经听过，可以把这篇当作总结和延伸；没听过的话，推荐去听听看~

这是我对未来几年的一次推演——主要围绕 Agent 展开。我对今年及以后会持续发生的事情做了一些推导，也对更远的未来做了一些前瞻。我知道之前做过好几次类似的预测了，但 AI 进化得实在太快，重新审视一下还是很有价值的。现在的局面跟哪怕一年前相比，都已经大不一样了。

## 2026 年

对于 2026 年，我觉得核心话题依然是 Agent，但它们会变得更加个性化，也会真正具备实用价值。

### 主动式 Agent

回顾整个发展历程：最初我们只有聊天机器人，仅用于对话。后来人们希望它们能获取外部数据，于是有了基础的工具调用——搜索网页、查实时数据。随着模型变强，它们能处理更多工具，变得更稳健。现在我们给了它们推理能力，于是就有了 Agent。

期望值在不断升高。大家希望 Agent 能做更多个性化的事，更实用，更了解自己。但局限性也很明显：当前的 Agent 只能做人类明确要求的任务，缺乏自驱力。我们常说 Agent 会帮我们行动、省时间，但现实是——不管是文本的、GUI 的还是两者结合的——它们都很慢。你发一句"帮我买点菜"，然后得等上好一会儿。这跟我们希望它把我们从繁琐日常中解救出来的初衷是背道而驰的。

要改善这一点，Agent 必须真正具备独立执行任务的能力。换句话说，它们必须理解我们的使用习惯，并利用这种理解在后台默默完成任务，不需要等人类来发起和干预。它们要提前准备好我们想要的东西。这让我觉得它们更像是一种升级版的自动补全。唯一的区别在于任务的尺度。普通的自动补全，比如 Cursor 的 Tab 模式，处理的是跨文件的代码行；而 Agent，比如 Manus，处理的是整个任务。

想做到这一点，它们需要学习你的使用模式。比如：Agent 知道你总是在周一早上让它总结邮件，以后就自动完成；或者它知道你的日用品快没了，直接帮你补货。

但也要确保它不烦人——时机很重要。既不能太具侵入性，也不能藏得太深，否则就没用了。这意味着 UI 和 UX 需要变。不能再只靠输入框界面了。上周 Gmail 的 AI Inbox 就是个好例子：它没有从根本上改变你用 Gmail 的方式，但加入的 AI 功能确实提升了效率。AI 驱动的工具不一定需要一个显眼的输入框——它们应该跟任务本身的上下文绑定在一起。

如果这方面发展得好，会极大提升人们用 Agent 的效率，人们也会更加信任它们。

### 记忆

第二个关键点是记忆。人们对模型的期望越来越高，模型需要更了解用户才能让人觉得真正有用。这跟主动式 Agent 直接相关。

目前关于记忆有几种通用方案。从产品角度看，大致三类：

1. 模型用工具把信息存入记忆空间（ChatGPT、Gemini、Claude、Kimi、Qwen 等）
2. 模型用对话搜索工具从历史聊天中查找特定话题（Claude、ChatGPT）
3. 系统每天总结用户交互，提取新信息存入详细的摘要记忆中（Claude）

这些都做得不错，我在 Claude 等产品的记忆功能上看到了很有潜力的表现。但对于更广泛的通用 Agent 来说，可以也应该做得更好。记忆不仅仅是关于我们的基本信息，它还连接着我们生活中的各种偏好：购物风格、代码风格、旅行习惯，等等。这些都影响着 Agent 能否在你的预期范围内完成任务。但一遍又一遍地告诉它你的偏好真的很烦人。所以产品如何"形成"这些记忆也需要创新。

我一直在想的一个思路：把你的 App 和网站先交给 Agent 去探索。让 Agent 自己去学你的偏好，总比让你描述出来要靠谱，而且你肯定不想重复自己。你让 Agent 登录这些服务，它去翻你之前的订单，学习并总结你的偏好——你买菜通常点什么？你总是选哪家航空公司？然后 Agent 把这些整理成专门的文档。每次它去特定的 App 或网站，相关指令自动加载，确保模型已经知道了它该知道的。这不需要什么特殊的模型能力——只需要产品或环境（Agent Harness）做优化，把模型已有的知识推得更远。

这个方法同样适用于很多其他场景。而且不同于最近的 Skills 之类的功能，这不需要用户或模型额外关注。不会出现模型忽略特定偏好的情况，因为它们是默认加载的。

以上都是产品层面的思考，但我们也可以从更底层的角度去想。有时候模型并没有意识到利用用户知识的重要性，就直接跳过了。（说明一下：以下想法可能是错的，因为目前还没有明确的实验证明它们有效。）

1. 可以借助 [SAEs](https://transformer-circuits.pub/2023/monosemantic-features/index.html)（稀疏自编码器）。Anthropic 在一些研究中使用了这些技术。通常 SAEs 可以在模型生成特定 token 时找到被激活的特征点。如果能用它来检测模型"寻求外部知识"（包括用户记忆）的倾向，那么当这种倾向很高时，我们就可以在那个 token 之后自动注入相关知识。模型收到之后就能生成更有用的回答。
2. 可以在 MoE 模型中用更少、更专一的专家。比如一个模型只有三四个专家，各管一摊：一个思考/推理，一个工具调用，一个生成回复。也许再加一个来协调每一步该用哪个专家。

记忆这块在模型层面可能还有更多创新空间。

不管走哪条路，围绕主动式 Agent 和记忆我们都会看到很多惊喜。现在的核心问题是模型如何真正提升生产力——我觉得在它们能够深刻影响整个社会之前，应该先对个体产生巨大且显著的影响。

## 趋势

另外，有一些趋势会在未来一两年内持续发展或开始转变。

### 模型即产品

第一个持续趋势是**模型即产品**。这个模式由来已久，我觉得它有两个略有不同的侧面：

1. 模型拥有独特能力，可以直接成为新产品或功能（如 GPT-Image、Nano Banana、Sora 2、Genie 3 等）
2. 模型足够强大，人们可以围绕它通过一些特殊的工程搭建通用产品（如基于 Claude-3.7 Sonnet 的早期 Manus、Claude Code 等）

其中，我觉得上周向公众发布的 [Genie 3](https://deepmind.google/models/genie/)（Google 最新的世界模型）潜力巨大。你可以创造世界，控制你在里面"走动"的方式——整个过程都可定制。这比 Sora 之类的视频模型有意思多了。而且由于它能生成互动的世界，它（或其后续版本）有望成为首批可靠的生成式游戏引擎。我以前玩游戏不多，但如果能有基于稳健世界模型的靠谱产品，我可能真会开始玩——自己创造体验听起来真的很有趣 lol。我在 X 上看到的一些例子：
![from https://x.com/i/status/2016979481832067264](/content/videos/2026-and-beyond/astronaunts_fly.mp4) ![from https://x.com/i/status/2017041490279575844](/content/videos/2026-and-beyond/cigarettes_in_station.mp4) ![from https://x.com/i/status/2016992620862476478](/content/videos/2026-and-beyond/breath_of_the_wild.mp4)

### Agent 的能力

第二个趋势是 **Agent 的能力**。模型会越来越稳健，这是确定的方向。它们会处理更多长尾任务，搞定更复杂的事情。它们不仅能加速软件工程工作，还能加速 AI 研究本身，甚至自动化其中的一部分。我们已经在科研和其他领域看到了巨大的潜力。也有 benchmark 在追踪这些进展，比如 [METR Time Horizon](https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/)、[VendingBench](https://andonlabs.com/evals/vending-bench-2) 等等。
![METR Time Horizon v1.1](/content/images/2026-and-beyond/metr-time-horizon.png)
![VendingBench-2 Scores (featuring Gemini-3 Pro, Claude Opus 4.5, and GPT-5.2)](/content/images/2026-and-beyond/vendingbench-2.png)
曲线在上扬，而且会继续稳步上升。

### 模型对齐

第三点，也是最重要的之一，是**模型对齐**。随着模型越来越强、被部署到越来越多的生产环境中，恶意使用的后果将变得灾难性。如果一个模型能帮科学家造核聚变反应堆，那它也能帮坏人造核武器；如果一个模型能帮公司开发药物，那它也能造生化武器——知识本来就是相通的。我之前写过关于这方面的思考，相关研究也很多，但我觉得一个很有前景的方向是新的 [Claude Constitution](https://www.anthropic.com/constitution)。[OpenAI 的 Model Spec](https://model-spec.openai.com/2025-12-18.html) 类似，但更偏规则导向：你应该做什么、不应该做什么。而 Constitution 更像是教模型如何做一个好人、做好事——不像规则，更像父母教孩子（我记得 Dario 把它形容为"一封来自已故父母的、密封至成年的信"）。我觉得这是一个很有希望的方向，预计会有更多公司探索类似的路径。

### 人机交互

最后是**人机交互**方式的变化。目前我们通过 App、API、网站跟 AI 交互——全都局限在手机和电脑上。我觉得一个很好的新入口是 AI 眼镜，因为它们能看到你看到的、听到你听到的。而且它们可以有自己的生态位——不需要取代手机或其他任何东西。它们能带来一些新的东西：一种跟 AI 交互和共处的不同方式。不像 Humane AI Pin 或 Rabbit r1 那样试图取代手机然后失败了。

AI 眼镜几乎能感知我们能感知的一切，所以它们是前面提到的主动式 Agent 的绝佳搭档。它们可以根据你的现实环境推荐事物或帮你完成任务。更好的记忆系统在这里也变得至关重要。

已经有一些产品了。比如 [Pickle 1](https://pickle.com/1) 看起来还挺有希望的——我已经预订了，等着看效果。Google 似乎也在做相关的事情，Demis 在 2026 年达沃斯论坛上有提到过。不过这些都还处于早期。

眼镜的事暂时可以先放一放，更多是硬件、软件和生态系统追赶的问题。

## 未来

关于未来我之前写过很多次了，但 AI 发展太快，情况跟一年前已经大不相同。所以我觉得还是值得分享一下我对更长远未来的看法——最近看了一些文章和采访、做了自己的思考之后，我有了一些新想法。

先提一下 Dario 的新文章[《技术的青春期》](https://www.darioamodei.com/essay/the-adolescence-of-technology)。这是一篇很严肃的文章，勾勒了我们面临的风险以及可能的应对之道。我很尊重他处理这些问题的方式——审慎、具体，而不是做一个末日论者。如果你还没读过，推荐读一读。我在这里写的更多是个人视角，来自一个将亲历这场变革的人。再次强调，这些都是我个人的想法，可能并不正确。

### 我想看到的

彼岸的世界：一个生存焦虑不再是人类生活默认模式的世界。医学、气候和长寿方面的科学进步比以往快得多。人们可以去追求对自己真正重要的事情，而不只是为了赚钱。

Dario 把这叫做[「充满爱与恩典的机器」](https://www.darioamodei.com/essay/machines-of-loving-grace)。我觉得他对可能性的判断是对的。真正的问题是，我们能否在不让一切崩塌的情况下度过中间那段路。

我无数次想象过这个美好的未来。机器人负责体力劳动。AI（这里指常规模型、机器人和其他形式）自动化几乎所有事情，它们超高的生产力带来了富足；富足让物质匮乏变得不再那么重要。人们从"谋生"的持续压力中解放出来，能够真正地去生活。这听起来像乌托邦，但我不觉得不可能——只是很难到达，需要付出巨大的努力。

### 一些艰难的问题

**如果 AI 创造的价值比你多，你的目标是什么？**

这很快就会成为许多人的切身体验。正如我所说，模型在各方面的能力越来越强，公司会逐渐部署和使用它们来干活，他们会算这笔账：AI 更快、更便宜、更好。理性的选择就是裁人。很多人会被裁掉、丢掉工作。如果这大规模发生，"AI 造福人类"的叙事就会崩塌——因为我们想要的是让每一个人都受益，而不只是一小部分人。如果某个东西让你在经济上变得无关紧要，又没给你任何回报，你不可能从中受益。这反而是在伤害。

我觉得要避免这种局面，公司和社会需要达成某种共识：即使 AI 创造了更多价值，在可预见的未来我们仍然应该保护人类。一家公司在获取了运营所需的价值后，应该把价值回馈给被取代的工人。这更像是一种社会契约。价值总是有来源的。

我知道这执行起来非常难，几乎不可能。没有执行机制、没有明确政策，竞争压力也会阻碍。但这正是这段旅程之所以艰难的原因。技术的到来比我们的社会系统适应得更快——这就是为什么我在[之前的博文](https://www.richardstu.com/blog/my-few-thoughts-on-ai-ethics#:~:text=I%20think%20it%20should%20be%20us%20to%20adapt%20the%20development%20of%20the%20AI%20system.)中说过，应该是我们去适应这些先进系统的发展。我们几乎从未经历过两者并行的局面，而现有的框架也不是为此建立的。

**没有工作的意义**

即使我们解决了物质层面的问题，即使被取代的工人最终获得了收入，还有一个关于意义的问题。人们不只是想要东西，他们想要被重视、被需要。工作曾经提供了这些，即使工作本身很无聊。

我想过很多这个问题，外面也有很多讨论。在一个 AI 处理了大多数认知任务的世界里，我们需要新的结构来承载目标。创造性工作、社区、探索、照护——这些对我们有意义的事情，即使它们不能最大化 GDP。但这不会自动发生，我们必须有意识地去构建。

也许这听起来很抽象，但其实很具体。如果你不需要工作，你会做什么？不是度假模式下的"你会做什么"，而是说——长期来看，什么能给你的生活带来结构和意义？对我来说，大概是探索未知，体验不同的地方，也许创造一些东西。但很多人甚至没有机会思考这个问题，因为生存才是第一位的。

转型会迫使我们回答这个问题。我觉得每个人的答案都会不同，而这恰恰就是关键所在——拥有弄清楚什么对你重要的自由，而不是被经济压力所支配。

**转型本身**

很明显，这场转型不会风平浪静。我之前说过，数以百万计的人将失去工作，社会可能会在某些部分崩溃。历史告诉我们，工业革命在好转之前造成了巨大的苦难。这次可能类似，但更快更广。

问题是我们能否让转型尽可能地人道。不是"为了进步可以接受的牺牲"——这种框架历史上被用来为很多伤害辩护。而应该是：我们承认这会很难，并试着在这个过程中互相照顾。

### 为什么我依然乐观

我知道风险巨大。末日论的声音很多，我也理解他们的出发点——强大 AI 落入坏人手中、价值观未对齐、社会崩溃，等等。

但有很多研究者在做 alignment 和可解释性的工作。一些公司（比如 Anthropic 和 DeepMind）在认真对待安全和相关问题。新的 Claude Constitution 试图教模型做一个好人，而不只是遵守规则。人们在进行这些对话，而不是假装问题不存在。这很重要。

我一直在想怎么同时拥抱这两种东西——充满希望的愿景，以及知道到达那里的路途将会崎岖。

说实话，归根到底就是一件简单的事：我相信我们的世界可以变得更好，我想看到那一天的发生。也许还能为此出一份力。这就是我坚持的信念。

未来的岁月会很艰难，也许需要几十年。但我总是回到这个问题：那又怎样？为什么要害怕？

---

还有很多可以写的，但我觉得现在够了，剩下的留到以后的文章里吧。

无论如何，希望世界在 2026 年以及更远的未来变得越来越好。
