还剩 1 分钟
    跳到主要内容
    2025-02-06·1 分钟阅读

    展望 2025

    涂津豪 著

    虽然已经二月了,但我觉得把 2024 年做个收尾,再结合 2025 年初的动态一起展望新一年,还是挺值得的。

    过去十三个月非常精彩,好事不断。我们在模型的多模态、推理和 Agent 能力上都取得了巨大进展——而这些恰恰是我心中通往真正强大的 AI 系统(也就是人们说的"AGI")这条路上最重要的几块拼图。


    关于多模态模型

    这个话题很有意思。我之所以觉得它重要,是因为我坚信让模型通过多种方式去"感知"世界,是帮助它们更好地理解物理规律、世界乃至整个宇宙的关键——文本并不能涵盖"语言"的全部;"语言"是丰富多彩的,远不止文字那么简单。

    目前我觉得限制模型继续前进的瓶颈是 Tokenizer。很多对人类来说绝对不会做错的简单任务,即使是当前最强的 LLM(比如 o1-pro)也会轻松翻车。比如:

    image.png

    所以我觉得我们必须打造真正的多模态模型,摆脱当前视觉编码器和 Tokenizer 的局限,让模型真正"看懂"图像。这是模型必须具备的一项最基本的能力。

    除了多模态输入,还有多模态输出。这在去年五月的 GPT-4V 和新的 Gemini 2 中已经有所展现。我觉得它酷的地方在于:它比让模型写 Prompt 再调 DALL·E 或 Midjourney 生成图片要好太多了。传统文生图模型有很多局限——碰到复杂内容容易卡壳,而且它们并不真正理解自己在画什么。但拥有真正多模态输出能力的模型,知道自己需要生成什么,人类也可以让它反复迭代。更重要的是,借助这种能力我们能做到很多好玩的事,比如:

    image.png

    挺酷的对吧?既然模型能直接帮你生成或编辑图片,那人人都能做 PS 的活了——根本不需要专业技能,这会非常方便。

    关于推理模型

    这是过去几个月最火的话题,我去年八月就写过。到目前为止我们手头已经有好几个推理/思考模型了(o 系列、R1、Gemini Thinking 模型,以及不少来自学术界的)。

    多亏了 RL,进展飞快。比如从 o1 到 o3,也就三个月左右,模型就已经能解决大量 AGI-ARC 任务了。接下来几个月可以期待更多疯狂的东西。

    我觉得给模型更多时间去回应这个思路本身很好。但有时候模型会出现过度思考的问题,既耗时又烧算力。比如你问 R1"1+1",它能想好几秒(大约 100 个 token):

    image.png

    所以模型能自主控制何时需要深入思考,也是一项很重要的能力,可能会成为研究者们下一阶段的重点。但在此之前,得先把通用推理能力(数学和编程之外的)做好。顺便说一句,我去年那篇 blog 里提到的 System 1 和 System 2 思维模式,我依然觉得有借鉴意义——虽然直接套用到当前模型上不太现实,但思路值得汲取。

    另外,R1 论文里提到了一个有意思的现象:模型有时会在思考过程中混用多种语言。我觉得随着 RL 和 test-time compute 的持续扩展,我们甚至会看到模型生成一些看起来毫无意义的乱码,但最终结果却丝毫不受影响。那大概就是我们可以说"OK,RL 就是管用"的时刻了。(但这对 Anthropic 和一些 AI 末日论者来说大概是个噩梦 :P)

    关于 Agent

    除了推理之外,这是另一个所有人都在滥用的词。我还记得去年几乎每个产品都号称自己有什么"AI Agent"功能(我会把每一个这么说的都拉黑)。

    在我心里,真正算得上 Agent 的屈指可数——DeepMind 的 Project Astra、OpenAI 的 Operator 和 Deep Research。这些工具才是真正能替你采取合理行动的 AI 系统。

    我的定义是:只有当你有一个好的推理器,或者说你的模型推理能力过关,你才有资格把基于它构建的系统叫做 Agent。我们应该期待的是这种东西,而不是那些花里胡哨的玩意儿——你点一下,帮你总结几封邮件就完事了。

    虽然过去一年那些号称有 Agent 的产品我大多不认可,但它们的思路在某种程度上是对的——它们差的只是一个更好的基座模型,比如 o3-mini:又快又便宜又能打。

    另一个能真正推动 Agent 向前的核心特性应该是 in-thinking tool use(思考中的工具调用)。o1 带工具调用发布的时候,我担心它的模式是不是"思考→调工具→直接回复",那就太线性了。但有了 o3,我的顾虑消失了。o3 的流程是"思考→用工具→再思考(可能还有几轮)→回复"。事实上我在 o3-mini 的网页浏览和基于微调 o3 的 Deep Research 里,已经看到了这种模式带来的巨大收益。期待 OpenAI 和其他实验室推出更多 Agent。

    呼~ 想说的就这些。一月只是个起点,接下来几个月会是一段疯狂的旅程!系好安全带吧。