会思考的模型才是好模型
这次 OpenAI 发布的 o1 系列模型(o1、o1-preview 和 o1-mini)确实很强,表现相当惊艳。我觉得最值得关注的两点是:1. 极其强悍的逻辑推理能力;2. 自带 CoT,几乎不需要用户费心做提示工程。
这两点为什么重要?因为过去面对复杂数学问题,语言模型基本上就是在"猜"答案,而不是真正一步步推理。但这次不一样了。OpenAI 在 GPT-4o 的基础上专门集成了 RL 和 CoT,还加入了特殊的 Reasoning Tokens,让模型真正学会了"思考"。
比如我让 o1-preview 和 o1-mini 算 279563 × 356104,它们都能先"想一想",在推理过程中自我反思、自我纠错,然后给出答案。验证之后,两个都对了。放在以前,LLM 做这种题不是直接乱猜就是在步骤之间犯致命的逻辑错误。同样的提升在我用 2024 年高考最难的数学题测试它们时也很明显(结果见这里)。另外我还试了今年全国竞赛的几道题,结果同样很好。可以说这一代模型在推理类任务上是质的飞跃。
逻辑严密、前后自洽的推理能力,是通往下一阶段——Agent——的必经之路。毕竟 Agent 要代替人类行动,我们不能容许它犯错,否则后果可能是灾难性的。(更多关于 Agent 和模型自主性的讨论见这篇)
还有一个有意思的细节是那个"thought for x seconds"的提示。o1-preview 的"思考"时间比较长,mini 的更短(因为 mini 专门在竞赛数学上做了微调)。我觉得这背后的想象空间非常大:现在是"想"几秒几分钟,以后就是"想"几个月——进行更深层的推理分析,得到更精确、更严密的结果。
这让我想到我之前写过的 System 1 和 System 2。这两个概念本来是描述人脑思维方式的,但现在我发现 o1 也展现出了类似的特征。System 1 负责快速直觉思维,比如 1+1=2;System 2 负责需要深度推理的复杂思维。更精确的思考带来更好更深的结果。这又让我想到另一篇文章里提到的——如果未来的模型能达到诺贝尔奖得主的水平,我们可以让几百个这样的 AI 副本组成研究团队,给它们几个月去"思考"和做研究。照目前的势头,模型在逻辑推理、生物学等领域已经非常强了,我觉得这个场景出现的可能性相当高。期待有一天看到 AI 帮人类研发重要药物、发现新材料,甚至证明数学定理。
目前看来,人类的前景一片光明。
