我对算力扩展的一些思考

To scale, or not to scale? 挺有意思的话题。Scaling Laws 是 AI 和机器学习领域一条很有名的定律，业界对此看法各异。所以我想聊聊自己对算力扩展的一些想法，这也是 Scaling Laws 中很核心的一部分。

我认为 LLM 训练在算力层面仍有很大的上升空间。这需要资金和资源两手一起抓，目前的趋势看起来还不错。虽然得警惕算力竞赛沦为公司之间的军备竞赛，但我觉得竞争恰恰是当下需要的。关键在于把重心放在训练效率上，别走向回形针效应。否则就算把全人类的资源砸进去，也看不到什么像样的成果，反而会对全球生态造成灾难性影响——跟"构建一个造福全人类的 AGI"这个初衷完全背道而驰。说实话，即便效率很高，模型训练的成本依然惊人。几个月前微软和 OpenAI 宣布要投 1000 亿美元建大规模算力中心。上个月的采访里，Anthropic CEO Dario 也说了，目前的投入够训练下一代模型，但明年的情况他自己也没把握，预测训练成本可能到几百亿甚至上千亿美元。

可能有人会说，与其一门心思堆算力，不如去研究更高效的模型架构。但我觉得你得确保短期内的研究路线有足够的潜力和可行性。否则对大厂来说就是在赌——而他们赌不起。一旦掉队，想追就太难了。现在就看谁能在这场持久战中笑到最后。