会思考的模型才是好模型
这一次,OpenAI 最新发布的 o1 系列模型(o1、o1-preview 和 o1-mini)确实非常强大,表现相当惊艳。我认为最值得关注的两点是:1. 它们具备极强的逻辑推理能力;2. 模型内置了 CoT(Chain of Thoughts),用户几乎不需要做太多提示工程。
我觉得这两点非常重要,因为过去面对复杂的数学问题时,这些语言模型往往只是在"猜答案",而不是真正地一步步推理。但这次不一样了。OpenAI 在 GPT-4o 的基础上专门集成了 RL 和 CoT,并且加入了特殊的"Reasoning tokens",让模型真正地在"思考"。
举个例子,当我让 o1-preview 和 o1-mini 计算 279563 乘以 356104 时,它们都能先"思考",在思考过程中自我反思和纠正,然后再给出答案。经过验证,两个结果都是正确的。换在以前,LLM 在这类任务上给出的答案完全不靠谱——要么直接乱猜,要么在步骤之间犯致命的逻辑错误。同样的提升在我用 2024 年高考最难的数学题测试它们时也很明显(结果见这里)。此外,我还用了今年全国竞赛的几道题来测试,结果同样非常好。所以可以看到,这一代模型在推理相关任务上的表现非常强悍。逻辑严密且自洽的推理能力,是我们迈向下一个 AI 阶段——也就是 Agent——的必要条件,毕竟 Agent 需要能够代替人类采取行动。我们不能允许它们犯任何错误,否则后果可能是灾难性的。(关于 Agent 和模型自主性的更多讨论,可以看这篇文章)
另外,我们可以注意到那个"thought for x seconds"的提示。比如 o1-preview 的"思考"时间相对较长,而 mini 的"思考"时间更短(因为后者专门在竞赛数学题上做了微调)。我认为这背后的潜力是无限的。现在它"思考"几秒或几分钟,未来它会"思考"几个月,进行更复杂的推理和分析,得到更准确、更有逻辑的结果。
这两个现象让我想起了我在这篇文章中提到的系统 1 和系统 2——那篇文章讨论的是模型推理能力未来可能的改进方向。这两个概念本来是用来描述人类大脑思维方式的,但现在我发现 o1 也具备了这种特征。按定义来说,系统 1 负责直觉式的快速思维,比如 1+1=2;系统 2 负责需要推理的复杂思维,比如复杂的数学问题等。更精确的思考能产出更好、更深入的结果。这让我想起了我写的另一篇文章,里面提到如果未来的模型能达到诺贝尔奖得主的水平,我们可以让数百个这样的 AI 副本组成一个研究团队,给它们几个月的时间去"思考"和做研究。现在看来,模型在逻辑推理、生物学等领域已经非常强了,所以我相信这种场景出现的概率非常高。我很期待在未来看到 AI 帮助人类研发重要药物、发现新材料,甚至证明数学定理。
目前看来,人类的未来一片光明。
