展望 2025 | 涂津豪的空间

虽然已经二月了，但我觉得把 2024 年做个收尾，再结合 2025 年初的动态一起展望新一年，还是挺值得的。

过去十三个月非常精彩，好事不断。我们在模型的多模态、推理和 Agent 能力上都取得了巨大进展——而这些恰恰是我心中通往真正强大的 AI 系统（也就是人们说的"AGI"）这条路上最重要的几块拼图。

关于多模态模型

这个话题很有意思。我之所以觉得它重要，是因为我坚信让模型通过多种方式去"感知"世界，是帮助它们更好地理解物理规律、世界乃至整个宇宙的关键——文本并不能涵盖"语言"的全部；"语言"是丰富多彩的，远不止文字那么简单。

目前我觉得限制模型继续前进的瓶颈是 Tokenizer。很多对人类来说绝对不会做错的简单任务，即使是当前最强的 LLM（比如 o1-pro）也会轻松翻车。比如：

image.png

所以我觉得我们必须打造真正的多模态模型，摆脱当前视觉编码器和 Tokenizer 的局限，让模型真正"看懂"图像。这是模型必须具备的一项最基本的能力。

除了多模态输入，还有多模态输出。这在去年五月的 GPT-4V 和新的 Gemini 2 中已经有所展现。我觉得它酷的地方在于：它比让模型写 Prompt 再调 DALL·E 或 Midjourney 生成图片要好太多了。传统文生图模型有很多局限——碰到复杂内容容易卡壳，而且它们并不真正理解自己在画什么。但拥有真正多模态输出能力的模型，知道自己需要生成什么，人类也可以让它反复迭代。更重要的是，借助这种能力我们能做到很多好玩的事，比如：

image.png

挺酷的对吧？既然模型能直接帮你生成或编辑图片，那人人都能做 PS 的活了——根本不需要专业技能，这会非常方便。

关于推理模型

这是过去几个月最火的话题，我去年八月就写过。到目前为止我们手头已经有好几个推理/思考模型了（o 系列、R1、Gemini Thinking 模型，以及不少来自学术界的）。

多亏了 RL，进展飞快。比如从 o1 到 o3，也就三个月左右，模型就已经能解决大量 AGI-ARC 任务了。接下来几个月可以期待更多疯狂的东西。

我觉得给模型更多时间去回应这个思路本身很好。但有时候模型会出现过度思考的问题，既耗时又烧算力。比如你问 R1"1+1"，它能想好几秒（大约 100 个 token）：

image.png

所以模型能自主控制何时需要深入思考，也是一项很重要的能力，可能会成为研究者们下一阶段的重点。但在此之前，得先把通用推理能力（数学和编程之外的）做好。顺便说一句，我去年那篇 blog 里提到的 System 1 和 System 2 思维模式，我依然觉得有借鉴意义——虽然直接套用到当前模型上不太现实，但思路值得汲取。

另外，R1 论文里提到了一个有意思的现象：模型有时会在思考过程中混用多种语言。我觉得随着 RL 和 test-time compute 的持续扩展，我们甚至会看到模型生成一些看起来毫无意义的乱码，但最终结果却丝毫不受影响。那大概就是我们可以说"OK，RL 就是管用"的时刻了。（但这对 Anthropic 和一些 AI 末日论者来说大概是个噩梦 :P）

关于 Agent

除了推理之外，这是另一个所有人都在滥用的词。我还记得去年几乎每个产品都号称自己有什么"AI Agent"功能（我会把每一个这么说的都拉黑）。

在我心里，真正算得上 Agent 的屈指可数——DeepMind 的 Project Astra、OpenAI 的 Operator 和 Deep Research。这些工具才是真正能替你采取合理行动的 AI 系统。

我的定义是：只有当你有一个好的推理器，或者说你的模型推理能力过关，你才有资格把基于它构建的系统叫做 Agent。我们应该期待的是这种东西，而不是那些花里胡哨的玩意儿——你点一下，帮你总结几封邮件就完事了。

虽然过去一年那些号称有 Agent 的产品我大多不认可，但它们的思路在某种程度上是对的——它们差的只是一个更好的基座模型，比如 o3-mini：又快又便宜又能打。

另一个能真正推动 Agent 向前的核心特性应该是 in-thinking tool use（思考中的工具调用）。o1 带工具调用发布的时候，我担心它的模式是不是"思考→调工具→直接回复"，那就太线性了。但有了 o3，我的顾虑消失了。o3 的流程是"思考→用工具→再思考（可能还有几轮）→回复"。事实上我在 o3-mini 的网页浏览和基于微调 o3 的 Deep Research 里，已经看到了这种模式带来的巨大收益。期待 OpenAI 和其他实验室推出更多 Agent。

呼~ 想说的就这些。一月只是个起点，接下来几个月会是一段疯狂的旅程！系好安全带吧。