我对 OpenAI o1 系列模型的一些思考

会思考的模型才是好模型

这次 OpenAI 发布的 o1 系列模型（o1、o1-preview 和 o1-mini）确实很强，表现相当惊艳。我觉得最值得关注的两点是：1. 极其强悍的逻辑推理能力；2. 自带 CoT，几乎不需要用户费心做提示工程。

这两点为什么重要？因为过去面对复杂数学问题，语言模型基本上就是在"猜"答案，而不是真正一步步推理。但这次不一样了。OpenAI 在 GPT-4o 的基础上专门集成了 RL 和 CoT，还加入了特殊的 Reasoning Tokens，让模型真正学会了"思考"。

媒体库1 / 3

image.png

← 左右滑动 →

比如我让 o1-preview 和 o1-mini 算 279563 × 356104，它们都能先"想一想"，在推理过程中自我反思、自我纠错，然后给出答案。验证之后，两个都对了。放在以前，LLM 做这种题不是直接乱猜就是在步骤之间犯致命的逻辑错误。同样的提升在我用 2024 年高考最难的数学题测试它们时也很明显（结果见这里）。另外我还试了今年全国竞赛的几道题，结果同样很好。可以说这一代模型在推理类任务上是质的飞跃。

逻辑严密、前后自洽的推理能力，是通往下一阶段——Agent——的必经之路。毕竟 Agent 要代替人类行动，我们不能容许它犯错，否则后果可能是灾难性的。（更多关于 Agent 和模型自主性的讨论见这篇）

还有一个有意思的细节是那个"thought for x seconds"的提示。o1-preview 的"思考"时间比较长，mini 的更短（因为 mini 专门在竞赛数学上做了微调）。我觉得这背后的想象空间非常大：现在是"想"几秒几分钟，以后就是"想"几个月——进行更深层的推理分析，得到更精确、更严密的结果。

这让我想到我之前写过的 System 1 和 System 2。这两个概念本来是描述人脑思维方式的，但现在我发现 o1 也展现出了类似的特征。System 1 负责快速直觉思维，比如 1+1=2；System 2 负责需要深度推理的复杂思维。更精确的思考带来更好更深的结果。这又让我想到另一篇文章里提到的——如果未来的模型能达到诺贝尔奖得主的水平，我们可以让几百个这样的 AI 副本组成研究团队，给它们几个月去"思考"和做研究。照目前的势头，模型在逻辑推理、生物学等领域已经非常强了，我觉得这个场景出现的可能性相当高。期待有一天看到 AI 帮人类研发重要药物、发现新材料，甚至证明数学定理。

目前看来，人类的前景一片光明。