还剩 1 分钟
    跳到主要内容
    2025-02-06·1 分钟阅读

    展望 2025

    涂津豪 著

    虽然现在已经是二月了,但我觉得把 2024 年做一个收尾,再结合 2025 年初的进展,一起展望新的一年,依然是一件挺不错的事情。

    过去十三个月非常精彩,发生了很多好事。我们在模型的多模态、推理和 Agent 能力方面取得了巨大进展,而这些都是我个人心中通往真正有能力的 AI 系统——也就是人们所说的"AGI"——这条路线图上的重要组成部分。


    关于多模态模型

    这是一个很有意思的话题。我之所以认为它重要,是因为我坚信让模型通过多种不同的方式去"感知"世界,是帮助它们更好地理解物理规律、世界乃至整个宇宙的关键——文本并不包含"语言"的全部;"语言"是多样的,它远比文本丰富得多。

    目前,我认为现有的 Tokenizer 是限制模型继续前进的瓶颈。事实上,有很多简单的任务是我们人类绝对不会做错的;然而,即便是当前最强的 LLM(即 o1-pro)也很容易在上面栽跟头。比如:

    image.png

    所以我觉得,我们必须打造出一个真正的多模态模型,摆脱当前视觉编码器/Tokenizer 的限制,真正理解图像。这是模型必须具备的一项超级基础的能力。

    在多模态输入之外,我们还有多模态输出。这在去年五月的 GPT-4V 和新的 Gemini 2 中已经有所体现。我觉得它很酷的原因在于,它比让模型写 Prompt 然后调用 DALL·E 或 Midjourney 来生成图片要好得多,因为传统的文生图模型有很多局限性。它们有时候会在复杂的内容上卡住,而且它们并不真正理解自己在画什么。但拥有真正多模态输出能力的模型,能够知道自己需要生成什么,人类也可以让它们在生成结果上反复迭代。更重要的是,借助这种能力我们可以做到很多有趣的事情,比如:

    image.png

    挺酷的,对吧?而且既然你可以让模型帮你生成或编辑图片,那每个人都能做 PS 的活儿了——根本不需要真正具备这方面的专业技能,这会非常方便。

    关于推理模型

    这是过去几个月最火的话题,我去年八月就写过相关的内容。到目前为止,我们手头已经有了好几个推理/思考模型(o 系列模型、R1、Gemini Thinking 模型以及许多来自研究领域的模型)。

    得益于 RL,进展非常快;比如从 o1 到 o3,大约只花了三个月,模型就已经能解决大量 AGI-ARC 任务了,而且我们可以期待在接下来几个月看到更多疯狂的东西。

    我认为给模型更多时间去回应这个思路是很好的。不过,有时候模型会出现过度思考(Overthinking)的问题,既消耗时间又消耗算力。比如当你问 R1"1+1"时,它会思考好几秒(大约 100 个 token):

    image.png

    所以我才说,模型能够自主控制何时需要深度思考,也是一项很重要的能力,这可能会成为研究者们下一阶段的重点。但在此之前,我们需要先把通用推理能力(数学和编程之外的)做得更好。顺便说一下,我去年写的那篇 blog 里提到了人类的系统 1 和系统 2 思维模式。我仍然觉得这是有借鉴意义的,虽然直接把它应用到当前模型上并不现实,但我们依然可以借鉴其中的一些思路。

    另外,R1 论文中提到的一个有意思的现象是,模型有时会在思考过程中使用混合语言。我觉得随着我们持续扩展 RL 和测试时计算(Test-time compute),我们甚至会看到模型生成无意义的或混乱的文本,而最终结果却完全不受影响。我觉得那将是我们说"好吧,RL 就是管用"的时刻。(但这对于 Anthropic 和一些 AI 末日论者来说大概是个灾难哈哈 :P)

    关于 Agent

    除了推理之外,我觉得这是另一个所有人都沉迷于使用的词。我还记得去年几乎所有产品都声称自己有什么"AI Agent"功能(而我会把每一个这么说的产品拉入黑名单)。

    在我心目中,真正算得上 Agent 的只有寥寥几个,比如 DeepMind 的 Project Astra、OpenAI 的 Operator 和 Deep Research。这些工具才是真正能为你采取合理行动的 AI 系统。

    在这里,我给出的定义是:只有当你拥有一个好的推理器(Reasoner),或者说你的模型能够很好地推理时,你才能把基于该模型构建的工具或系统称为 Agent。我认为我们应该期待的是这样的东西,而不是那些花里胡哨的工具——你点一下,它帮你总结几封邮件之类的。

    虽然过去一年里那些声称自己有 Agent 的产品在我看来都不太合格,但它们的思路某种程度上是对的——它们缺的是一个更好的基座模型,比如 o3-mini:快速、便宜、能力强。

    另一个能真正推动这些 Agent 向前发展的核心特性应该是思考中的工具调用(In-thinking tool use)。当 o1 带工具调用发布时,我担心的是 o1 的工具调用是否是"思考→调用工具→直接回复"这种模式;但现在有了 o3,我的顾虑消失了。o3 的工具调用流程是"思考→使用工具→再思考(可能还有几轮)→回复"。事实上,我在 o3-mini 的网页浏览以及基于微调 o3 驱动的 Deep Research 中,已经看到了这种模式带来的巨大收益。我期待看到 OpenAI 以及其他研究机构推出更多的 Agent。

    呼~ 我想说的就是这些。一月只是一个起点,接下来的几个月我们将经历一段疯狂的旅程!系好安全带吧。