---
title: "我对 OpenAI o1 系列模型的一些思考"
date: "2024-09-15"
author: "涂津豪"
site: "涂津豪的空间"
url: "https://www.tujinhao.com/blog/my-few-thoughts-on-openais-o1-family-models"
language: "zh"
---

# 我对 OpenAI o1 系列模型的一些思考

**会思考的模型才是好模型**

这次 OpenAI 发布的 [o1 系列模型](https://openai.com/index/learning-to-reason-with-llms/)（o1、o1-preview 和 o1-mini）确实很强，表现相当惊艳。我觉得最值得关注的两点是：1. 极其强悍的逻辑推理能力；2. 自带 CoT，几乎不需要用户费心做提示工程。

这两点为什么重要？因为过去面对复杂数学问题，语言模型基本上就是在"猜"答案，而不是真正一步步推理。但这次不一样了。OpenAI 在 GPT-4o 的基础上专门集成了 RL 和 CoT，还加入了特殊的 Reasoning Tokens，让模型真正学会了"思考"。

![image.png](/content/images/my-few-thoughts-on-openais-o1-family-models/image.png)

![image.png](/content/images/my-few-thoughts-on-openais-o1-family-models/image-1.png)

![image.png](/content/images/my-few-thoughts-on-openais-o1-family-models/image-2.png)

比如我让 o1-preview 和 o1-mini 算 279563 × 356104，它们都能先"想一想"，在推理过程中自我反思、自我纠错，然后给出答案。验证之后，两个都对了。放在以前，LLM 做这种题不是直接乱猜就是在步骤之间犯致命的逻辑错误。同样的提升在我用 2024 年高考最难的数学题测试它们时也很明显（结果见[这里](https://photos.app.goo.gl/JE9UakvNAtdd5wsJ7)）。另外我还试了今年全国竞赛的几道题，结果同样很好。可以说这一代模型在推理类任务上是质的飞跃。

逻辑严密、前后自洽的推理能力，是通往下一阶段——Agent——的必经之路。毕竟 Agent 要代替人类行动，我们不能容许它犯错，否则后果可能是灾难性的。（更多关于 Agent 和模型自主性的讨论见[这篇](https://blog.richardstu.com/my-few-thoughts-on-agents)）

还有一个有意思的细节是那个"thought for x seconds"的提示。o1-preview 的"思考"时间比较长，mini 的更短（因为 mini 专门在竞赛数学上做了微调）。我觉得这背后的想象空间非常大：现在是"想"几秒几分钟，以后就是"想"几个月——进行更深层的推理分析，得到更精确、更严密的结果。

这让我想到我之前[写过](https://blog.richardstu.com/does-llm-really-have-reasoning-ability-repost-from-my-x)的 System 1 和 System 2。这两个概念本来是描述人脑思维方式的，但现在我发现 o1 也展现出了类似的特征。System 1 负责快速直觉思维，比如 1+1=2；System 2 负责需要深度推理的复杂思维。更精确的思考带来更好更深的结果。这又让我想到[另一篇文章](https://blog.richardstu.com/my-few-thoughts-on-ai-ethics)里提到的——如果未来的模型能达到诺贝尔奖得主的水平，我们可以让几百个这样的 AI 副本组成研究团队，给它们几个月去"思考"和做研究。照目前的势头，模型在逻辑推理、生物学等领域已经非常强了，我觉得这个场景出现的可能性相当高。期待有一天看到 AI 帮人类研发重要药物、发现新材料，甚至证明数学定理。

目前看来，人类的前景一片光明。
