To scale, or not to scale? 这是一个很有意思的话题。Scaling Laws 是 AI 和机器学习领域的一条著名定律,人们对此的看法也各不相同。所以我想聊聊自己对算力扩展(Compute Scaling)的一些想法,它是 Scaling Laws 的一个重要组成部分。
我认为 LLM 训练在算力层面仍然有很大的提升空间。这需要资金和资源的同步投入,而目前的趋势看起来还不错。虽然我们应该警惕算力扩展演变成公司之间的军备竞赛,但我认为竞争恰恰是当下所需要的。关键在于把重心放在训练效率上,避免回形针效应(Paperclip Effect)。否则,即便我们倾尽全人类的资源,也不会看到显著成果。这最终会对全球生态系统造成灾难性影响,与我们构建一个造福全人类的 AGI 系统的愿景完全背道而驰。说实话,即使训练效率很高,模型训练的成本也是极其高昂的。几个月前,微软和 OpenAI 宣布计划投资 1000 亿美元建设大规模算力中心。上个月的一次采访中,Anthropic CEO Dario 提到,他们目前的投入足以训练下一代模型,但对明年的情况并没有把握。他预测明年的模型训练成本可能会达到数百亿甚至上千亿美元。
有人可能会说,与其把精力都放在算力扩展来提升模型能力上,不如去研究更高效的模型架构。但我觉得,你得确保短期内的研究成果具有足够的潜力和可行性。否则对于大玩家来说,这本质上就是在赌博——而现实是,他们赌不起。一旦落后,想追上来就非常困难了。现在就看谁能在这场持久战中笑到最后。
